發表日期 4/2/2022, 3:03:05 PM
迴顧過去的時間點,英特爾是在2021年的8月17日正式公布的高性能顯卡産品品牌――“Intel Arc”,中文名稱銳炫,一直到2022年3月30日,英特爾方正式揭開瞭它神秘的麵紗。
從英特爾公布獨顯計劃開始,英特爾造顯卡一直是科技行業的熱門話題。對消費者而言,終於在NVIDIA和AMD兩傢之外有瞭第三個選擇,意味著新的競爭格局會給這個市場帶來新的潮流與走嚮。按之前的披露,英特爾Xe-HPG銳炫顯卡將會采用台積電6nm製程,放棄原有EU的基本模塊,采用瞭全新的Xe核心,第一代Xe HPG微構架核心的代號名為Alchemist(煉金術士),第二代與第三代將分彆使名為Battlemage、Celestial,然後將是全新下一代Xe架構的Druid。可以看到,英特爾在Xe-HPG上的規劃已經相當建全。
Part 1. 解讀英特爾在GPU領域的積纍
如果按曆史進程來看,英特爾其實並非“顯卡俱樂部”的新玩傢,早在二十多年前,英特爾便嘗試過開放獨立顯卡,一直以來,英特爾從未放棄過對高性能顯卡的嘗試。事實上,2017年英特爾拿齣一款代號為”DG1”的顯卡,便讓用戶們感到異常興奮。但事實上,英特爾正式在市場中推齣的卻是移動端的獨立顯卡――代號為 “Alchemist” 的英特爾銳炫顯卡。
首推移動端獨顯其實並不意外,按英特爾院士(主要負責圖形創新)Tom Petersen的解讀:“英特爾最大的優勢就是平台級的創新。之所以先從移動端平台開始發布我們的顯卡,因為一直以來這都是我們的優勢和強項,我們通過筆記本和移動端讓用戶感受到平台間的相互協作。在移動端筆記本的基礎上,我們還可以提供更多的差異化特性,突齣不同的體驗。”
英特爾在移動端的優勢非常明顯,老用戶應該記得,英特爾在從2003年推齣迅馳平台起便統一瞭總綫接口、無綫規格、通用接口等筆記本平台的標準;隨後在傳統高速數據的雷電接口、用於視頻編解碼的Intel Quick Sync Video,以及超極本、二閤一創新形態、輕薄Evo平台上,都一直在增強移動端的平台化優勢。
而且從Xe銳炬核顯到Xe-HPG銳炫獨顯,英特爾事實上已經在顯卡方麵經曆瞭數代積纍,其實去年英特爾已經在構架日上推齣一款由8個Xe組成的SoC――麵嚮服務器的Ponte Vecchio GPU便給我們留下瞭很深的印象。
全新的A係列移動端獨立顯卡沿用瞭英特爾在CPU上的命名習慣,共分為3、5、7三大係列,其中3係列主要麵嚮主流遊戲、5係列麵嚮性能遊戲、7係列麵嚮硬核性能遊戲。其中3係列隨著3月30日發布日開始正始嚮市麵發售,而5、7係列則會在2022年初夏麵市。關於英特爾的性能劃分,接下來我會一一給大傢分析。
不管哪個係列,英特爾A係列移動端獨立顯卡均會采用相同的顯卡構架,也就是我們常提及的顯卡各個功能性內核。如今,顯卡越來越強調顯卡在構架上的並行性,可以看到,Xe-HPG銳炫獨顯正在硬件層劃分為內置XMX(矩陣引擎)的Xe內核、支持下一代編解碼器標準的Xe媒體引擎,以及解決高輸齣規格的Xe顯示引擎和新的圖形管綫, 用來處理各種不同顯示任務。所以在A係列移動端獨立顯卡之上,對DX12 Ultimate終極版的支持、AI運算、視頻編解碼、顯示輸齣和渲染著色等任務都是由不同引擎來負責的,這有利於分擔Xe內核的運算負載。
Part 2. 看懂Xe HPG微架構的優勢
Xe內核
Xe內核正是Xe HPG微架構上最小模塊,剛纔提及,它取代瞭之前集成顯卡上EU的概念,它正是顯卡的最基礎執行單元,單個Xe內核的性能的強大與否,關係著這一代顯卡的整體性能和能耗比。A係列移動端獨立顯卡的Xe內核包含瞭16個256位寬的SIMD矢量引擎(XVE),負責為傳統圖形著色器執行大部分的運算;內核另外還包含16個矩陣引擎(XMX),每個引擎都是1024位寬,也就是專門為瞭AI加還運算使用的;為瞭滿足矩陣、矢量和光綫追蹤單元的高帶寬需求,每個Xe內核中均內置瞭一個192KB的大型本地內存,可以根據每個工作負載的需要在L1緩存和共享本地內存(SLM)之間動態分配。
可以看到,Xe內核的功能相當全麵,而且將矢量運算和AI運算放在同一內核中,可以根據響應負載類型靈活調用本地內存,運行效率更高。
矢量引擎(XVE)
矢量引擎(XVE)是Xe內核中的重要組成部分,可以看到英特爾改進瞭該引擎的ALU(算術邏輯單元),為浮點運算(FP)提供專用的執行端口。FP指令可以與整數運算(INT)指令同時運行,比如DP4a的快速INT8計算便是通過該引擎執行。
矩陣引擎(XMX)
Xe內核的另一部分則是全新的XMX矩陣引擎,它的任務便是為瞭強化AI加速能力,用於高吞吐量矩陣乘法,涵蓋包括BF16和INT8等最常見的AI數據類型。
剛纔我已經提及將矢量引擎(XVE)和矩陣引擎(XMX)放在同一個Xe內核中可以靈活調用本地內存的好處,我們來看在實現數據執行中,不同引擎的執行效率。MAC是圖形中使用的基本SIMD矢量指令,相當於每個時鍾執行16個Ops(8次並行運算乘法+8次並行加法);DP4a 是針對不需要32位精度的AI計算所做的優化,總共是32次並行乘法;矩陣引擎通過將乘法纍加4深度流水綫化,相當於總共執行瞭64次操作的4個階段,共256次操作。
所以,不同的引擎可以實現浮點FP、整數INT和 XMX指令的並行處理,以鎖步形式實現兩個引擎的並行和資源共享,以獲得更高的算力與執行效率。
渲染切片(Rendering Slice)
渲染切片(Rendering Slice)可以理解為Xe內核的上一層單位,它是可重用IP的基本構建塊。在Xe-HPG微架構裏,每4個Xe內核組成瞭一個渲染切片。在每個渲染切片中,還包含瞭網格著色器、采樣器反饋,以及四個硬件光追加速器等功能性模塊,以實現對DX12 Ultimate的支持和對實時光綫追蹤功能的支持。
再嚮上,渲染切片便可用來構建不同的SoC,也就是不同的A係列移動端獨立顯卡,目前發布的産品最少包含兩個渲染切片,最大八個。可以看到,Xe-HPG微架構是不是有搭積木的即視感,這正是該構架的優勢所在――配置靈活。除此之外,它的能耗比也有相當明顯的提升,相對上一代産品 Xe-LP微架構,其每瓦性能提升瞭1.5倍。
Part 3. A係列移動端獨立顯卡的重要特徵
講完瞭Xe HPG微架構的構成和優勢,其實很多朋友都基本瞭解A係列移動端獨立顯卡的一些重要特徵。當然,我還是進一步將其展開來聊一聊,便於瞭解英特爾在這些領域的進度。
XeSS超級采樣
英特爾在構架日發布Arc品牌時便公布瞭XeSS超級采樣的技術,從構架上來看,這項技術也是根植於Xe內核之中,由XMX矩陣引擎作為它的硬件執行單位。從英特爾披露的技術特徵來看,XeSS有彆於市麵上普通的空間放大(Spatial upscaler)技術並不相同,是通過神經網絡輔助運動矢量運算,重新渲染低分辨率畫麵,生成更為真實的高分辨率畫麵。這項技術與NVIDIA的DLSS類似。
XeSS超級采樣技術需要遊戲廠商的支持,在今年的CES 2022之上,英特爾便公布瞭505 Games的《死亡擱淺:導演剪輯版》便支持瞭該技術,至A係列移動端獨立顯卡正始發布之日,已經有14款遊戲完成瞭對XeSS的支持。可以看到,這個進度是比較快的,而且隨著裝載A係列移動端獨立顯卡的筆記本越來越多地麵市,會有更多遊戲廠商將會支持該功能。
Xe媒體引擎
Xe媒體引擎是A係列移動端獨立顯卡的一項重要技術進步,它集成瞭英特爾號稱“最先進的媒體加速器之一”可以看到,除瞭H.265 / HEVC、H.264 / MPEG-4 / AVC、VP9 等主要媒體格式,該引擎是業界首次實現AV1編碼和解碼的硬件加速支持,其硬件編碼速度比CPU軟件編碼快瞭50倍。這也意味著裝載A係列移動端獨立顯卡的筆記本電腦進行媒體編解碼工作時,最大可能釋放CPU的性能,幫助電腦同時進行更多任務。
Xe顯示引擎
與其他顯卡構架不同,英特爾專門為A係列移動端獨立顯卡構建瞭一個獨立的Xe顯示引擎,用於高規格的顯示輸齣。它支持如今筆記本上廣泛兼容的HDMI 2.0b和DP1.4a的規格,支持嚮單台1080p@360Hz或4台4k@120Hz HDR的顯示器輸齣。為解決顯示高幀率畫麵撕裂的問題,英特爾自研發瞭Speed Sync,並同時支持VESA標準的Adaptive Sync,特彆是自研的Speed Sync,可以有效避免以往V-Sync帶來的高延遲問題。
Xe顯示引擎上,還有一項英特爾獨創的Smooth Sync功能,它以插件形式集成在銳炫顯卡之上。這項功能的原理是通過模糊化兩個撕裂幀之間的邊界,來減少視覺失真。這個插件無需編碼,係統負載比幀同步技術低得多。
Part 4. A係列顯卡的參數與性能
Alchemist,也就是A係列移動端獨立顯卡采用瞭兩種SoC封裝,可以簡單稱其為“大芯片”和“小芯片”,大芯片的代號為ACM-G10,共有32個Xe內核和光追單元(也就是8個渲染切片),提供16MB的L2緩存,256位GDDR6接口和16路PCIe 4接口;小芯片的代號為ACM-G11,配置為8個Xe內核和光追單元、4MB L2緩存,96位顯存接口,8路PCIe 4接口。兩款芯片均包含兩個Xe多功能編解碼引擎和4路顯示輸齣引擎。
從産品來參數來看,銳炫3係列共包含A350M和A370M兩款,提供瞭6個和8個兩種Xe內核和光追單元數量,功耗設計和顯卡時種頻率均不相同,采用瞭相同的4GB 64位寬的GDDR6獨立顯存;銳炫5係列僅有一款A550M,采用瞭16個Xe內核和光追單元數量;銳炫7係列同樣有兩個配置,分彆是24個Xe內核和光追單元數量的A730M和32個Xe內核和光追單元數量的A770M,其中A770M的顯存高達16GB 256位,顯卡功率也達到120~150W。
剛纔已經提及,A係列移動端獨立顯卡全係列支持DirectX12 Ultimate,支持光綫追蹤、可變速率著色、網格著色和采樣器反饋。除硬件級光追外,諸如可變速率著色,能讓應用例如遊戲告知顯卡,場景中哪些部分需要更高的細節,哪些部分可以適當減少,從而加快當前幀的渲染,最終提高遊戲幀率。
以A370M為例,這款顯卡基本定位於1080p之下以中、高畫質暢玩主流遊戲,它相對12代酷睿移動處理器的核顯有兩倍的性能提升。英特爾公布的測試成績中,諸如《殺手3》《毀滅戰士:永恒》《重返德軍總部:新血脈》等遊戲,均能以中、高畫質實現60~80fps的幀率錶現。
在《堡壘之夜》《GTA》這樣的競技遊戲中,可以看到A370M可以在1080p分辨率下跑到90fps以上。
在創作類軟件中,諸如常用的Handbrake、Dvinci、Premiere Pro,均有不同性能的提升,特彆是Premiere Pro中的兩個典型場景應用,有著超過銳炬顯卡1.8X和2.4X的性能錶現。
Part 5. A係列顯卡背後的驅動力
僅在硬件層麵去看英特爾A係列移動端獨立顯卡是不全麵的,它背後還有眾多技術針對不同層麵的性能提升提供瞭驅動力,為瞭方便用戶理解,英特爾將其打包為Intel Deep Link,它事實上包含瞭三個方麵的技術:動態功率共享、超級編碼和超級算力。
在動態功率共享功能上,英特爾其實早在2016年,也就是Kobe-Lake G時代便推齣瞭第一版的動態功率共享功能,在CPU 裸片和GPU裸片之間動態分配功率。如今的A係列獨立顯卡上,應用瞭英特爾最新的算法,通過循環采集各種CPU和GPU的溫度、占用率、各自的功耗等各種係統信息,特彆是在遊戲中GPU負載過高時的GPU Bound的場景時,動態調整GPU和CPU的功率配比,將更多的功率分配給GPU。CPU高功耗場景中,反之亦然。目前,該功能的調整最小間隔僅需100毫秒。
超級編碼技術是通過整閤筆記本電腦現有的編解碼硬件能力,同時運用集成顯卡和獨立顯卡的編解碼引擎來提升編解碼效率。這種協作是通過OneVPL的API接口來實現的,通過特定的API函數按組被分配到不同的多媒體引擎上並行處理。
通過同樣的邏輯,英特爾還可讓整個係統都參與到內容創作中來,為之設計的這樣一個基於機器學習的服務被稱為MLS。MLS是OpenVino中的一個框架,它能智能的把負載分配給不同的算力模塊。同樣是基於輪詢顯卡的延遲敏感度、吞吐量、性能要求、功率消耗等負載特徵,將負載分配給獨立顯卡、集成顯卡,或者CPU。仔細看來,Deep Link的三項功能其實在運行邏輯和資源調集上都是有內在聯係的,所以將其整體為一個技術並不奇怪。
非常有意思的是,Intel Deep Link技術基於筆記本電腦的現有構架,最大可能地調集筆記本電腦的所有硬件資源,在配備獨立顯卡之後,針對一項工作同樣能夠最大限度調集集成顯卡和CPU的剩餘資源,以提升整機效率。
針對這項技術,我特彆詢問瞭英特爾圖形産品管理總監Devon Nekechuk。Devon提及:“Intel Deep Link技術在動態功率共享上是針對整體性能的,但超級編碼、超級算力則需要與不同的ISV(軟件開發商)去閤作。當然,對用戶來說,英特爾基於人工智能的MLS引擎是透明的,軟件算法集成到較靠底層的軟件庫中,係統是自動根據負載做齣調配的,不需要人為乾預。而ISV則可以通過深度定製,對整個係統進行、打通上下層的軟件,進一步提升效率。目前,英特爾已經閤DaVinci Resolve、Handbrake等重要的內容創作軟件實現瞭深度匹配。”
基於現有的硬件構架,Intel Deep Link技術在動態功率共享上能夠實現30%的性能提升,超級編碼上提供60%的性能提升,結閤XMX矩陣引擎,可實現24%的性能提升。是否每款A係列移動端獨立顯卡都擁有相同的性能提升能力,等到真機入手時我會給大傢一一測試。
Part 6. A係列顯卡筆記本預覽
首先發布的A係列移動端獨立顯卡為銳炫3係列,它也將主要搭載在Evo平台的輕薄本之上。據英特爾宣稱,搭載銳炫3獨顯和12代酷睿CPU的Evo輕薄本依舊擁有超過9小時的電池續航能力,這一點也是對A係列獨立顯卡在能耗比錶現上的印證。
全球首款搭載銳炫顯卡的筆記本已經麵市,為搭載銳炫 A350M的三星Galaxy Book2 Pro,目前國內暫時看不到這款産品,不過從第二季度開始,包含宏��、華碩、藍天電腦、戴爾、技嘉、海爾、惠普、聯想、三星、微星和NEC等各大OEM廠商將推齣搭載銳炫3係列獨顯的産品,而銳炫5、7係列的筆記也將在今年夏天陸續麵市。
隨著銳炫獨顯筆記本的上市,所有銳炫獨顯均會裝載一個統一的顯卡管理軟件――Arc Control。它提供瞭快速升級、實時查看顯卡性能的工作負載,以及直播、串流用到的相關設置,比如開啓直播功能將遊戲精彩的畫麵分享到直播平台上、開啓虛擬攝像頭將背景移除、自動調整畫麵比例,並截取和保存遊戲中的高光時刻等功能,目前,已經有10個遊戲支持抓取遊戲截圖或者視頻的功能。
Part 7. 寫在最後
關於英特爾銳炫A係列移動端獨立顯卡的解讀內容暫時就給大傢報告到這裏,不過關於産品的報道對於我們來說纔剛剛開始。相信大傢跟我們一樣,對於A係列移動端獨立顯卡在筆記本上的真實錶現非常感興趣。而且隨著英特爾獨顯的上市,無疑會給市場引起劇烈的化學反應,也會帶來一係列的不確定因素:比如英特爾的輕薄獨顯本性能如何?價格是否有優勢?開放給其他廠商後是否會接招?遊戲廠商、軟件廠商對XeSS、Deep Link等軟件的跟進力度如何?一切話題我們都會高度跟進。