雖然英偉達(NVIDIA)並購Arm的計劃失敗,但憑藉其 圖形處理和人工智能(AI) 兩大賽道,英偉達已經成為全球半導體市值的TOP ONE。截至目前,英偉達的市值將近7000億美元,比第二名台積電足足多瞭1400億美元。2022年3月22日,在英偉達年度GTC大會(英偉達組織召開的全球開發者大會)上, 英偉達CEO黃仁勛 拿齣王炸,堪稱AI核彈級彆的産品:最新Hopper架構的H100 GPU係列!小麥整理瞭本場GTC大會的完整乾貨,分享給各位讀者朋友。
H100 GPU
每次英偉達GPU的新架構都會以一位科學傢的名字來命名,這次也不例外。新Hopper架構的命名取自美國計算機科學傢 格蕾絲・赫柏(Grace Hopper) ,她是耶魯大學第一位數學女博士、世界上第三位程序員,也是全球首個編譯器的發明者。
作為全球首款基於Hopper架構的GPU,相比A100,H100的FP8(8bit浮點運算精度)性能提升6倍,FP16、TF32、FP64性能各提升3倍。
從技術進展來看,H100有6項突破性創新:
1、 先進芯片 :H100采用 台積電4納米 工藝,有 800億個晶體管 ,可實現近5TB/s的外部互聯帶寬。H100是首款支持PCIe 5.0的GPU,也是首款采用HBM3標準的GPU,單個H100可支持40Tb/s的I/O帶寬,實現3TB/s的顯存帶寬。用黃仁勛的話說,20塊H100 GPU便可承載相當於全球互聯網的流量。
2、 新Transformer引擎 :該引擎可以在不影響準確性的情況下,可將Transformer模型的訓練時間從數周縮短至幾天。
3、 第二代安全多實例GPU :MIG技術支持將單個GPU分為7個更小且完全獨立的實例,以處理不同類型的作業。H100能托管7個雲租戶,而A100僅能托管1個。
4、 機密計算 :H100是 全球首款具有機密計算功能的GPU加速器 ,能保護AI模型和正在處理的客戶數據,可以應用在醫療健康和金融服務等隱私敏感型行業。
5、 第4代英偉達NVLink :結閤全新外接 NVLink Switch ,可將NVLink擴展為服務器間的互聯網絡,最多連接多達256個H100 GPU。
6、 DPX指令 :Hopper引入瞭一組名為 DPX的新指令集 ,DPX可加速動態編程算法,解決路徑優化、基因組學等算法優化問題,與CPU和上一代GPU相比,其速度提升分彆可達40倍和7倍。
總體來說,H100的這些技術優化,將對跑深度推薦係統、大型AI語言模型、基因組學、復雜數字孿生、氣候科學等任務的效率提升非常明顯。
H100將提供 SXM和PCIe 兩種規格,可滿足各種服務器設計需求。其中H100 SXM提供4 GPU和8 GPU配置的HGX H100服務器主闆;H100 PCIe則通過NVLink連接兩塊GPU,PCIe規格更便於集成到現有的數據中心基礎設施中。
為瞭將Hopper的強大算力引入主流服務器,本次英偉達還推齣瞭全新的 融閤加速器H100 CNX 。它將網絡與GPU直接相連,使網絡數據通過DMA以50GB/s的速度直接傳輸到H100,有效避免帶寬瓶頸。
這些産品預計於今年下半年時候全麵發售。阿裏雲、AWS、百度智能雲、榖歌雲、微軟Azure、Oracle Cloud、騰訊雲和火山引擎等雲服務商均計劃推齣基於H100的實例。
企業級AI係統,最快AI超算
基於H100,英偉達最先進的企業級AI基礎設施 DGX H100係統、DGX SuperPOD以及Eos超級計算機 也將逐一登場,它們計劃從今年第三季度逐步開始供應。
DGX H100
DGX H100是一款基於英偉達H100 GPU的AI平台。每個 DGX H100係統配備8塊H100 GPU ,總計有6400億個晶體管,由NVLink連接,在全新的FP8精度下AI性能可達32Petaflops(韆萬億次/秒),比上一代係統性能高6倍,GPU之間可提供900GB/s的帶寬,是上一代係統的1.5倍。
DGX SuperPOD
藉助NVLink Switch係統, DGX SuperPOD,可以最多由32個DGX H100組成(最多高達256個GPU) ,其HBM3顯存達20.5TB,顯存帶寬高達768TB/s。“相比之下,整個互聯網不過隻有100TB/s。”英偉達CEO黃仁勛感慨道。
新一代DGX SuperPOD可提供 1Exaflops(百億億次/秒) 的FP8 AI性能,比上一代産品性能高6倍,能夠運行具有數萬億參數的大型語言模型;還有20TB的HBM3顯存、192TFLOPS(萬億次/秒)的SHARP網絡計算性能。
Eos超級計算機
另外,據黃仁勛透露,英偉達正在打造Eos超級計算機,並稱這是“首個Hopper AI工廠”,將於數月後推齣。
該超算將包含 18個DGX SuperPOD,也就是576台DGX H100係統,共計4608塊DGX H100 GPU ,預計將提供18.4Exaflops的AI算力,這比目前運行速度最快的日本富嶽(Fugaku)超級計算機快4倍。在傳統科學計算方麵,Eos預計可提供275Petaflops的性能。
兩個CPU組成的Grace CPU
除瞭GPU外,英偉達數據中心“三芯”戰略中另一大支柱CPU也有新進展。本次,英偉達推齣首款麵嚮HPC和AI基礎設施,基於最新的 Armv9架構 的數據中心專屬CPU: Grace CPU超級芯片 。
Grace CPU單個socket擁有 144個CPU核心 ,具備最高的單綫程核心性能。通過Grace Hopper超級芯片模組能在CPU與GPU之間進行芯片間的直接連接,每個鏈路的速度達到900GB/s。
Grace CPU超級芯片可運行所有的英偉達計算軟件棧,結閤英偉達ConnectX-7網卡,能夠靈活地配置到服務器中,或作為獨立的純CPU係統,或作為GPU加速服務器,可以搭配基於Hopper的GPU。
AI軟件係統
如今英偉達已經能提供全棧AI,除瞭AI計算硬件外,其AI軟件也有不少進展。本次英偉達發布瞭60多個相關庫、工具和技術的更新,用於量子計算和6G研究、網絡安全、基因組學、藥物研發等領域的計算研究。
英偉達使用其首台 AI數字孿生超級計算機Earth-2 來應對氣候變化,並創建瞭Physics-ML模型來模擬全球天氣模式的動態變化。英偉達還與實驗室研究員們共同開發瞭一個天氣預報AI模型FourCastNet,該模型基於10TB的地球係統數據進行訓練,首次在降水預測上達到比先進的數值模型更高的準確率,並使預測速度提高瞭4~5個數量級。
同時,英偉達對話式 AI服務Riva 全麵發行,Riva 2.0版本支持識彆7種語言,可將神經文本轉換為不同性彆發聲的語音。
Maxine,一個AI模型工具包 ,現已擁有30個先進模型,可優化實時視頻通信的視聽效果。比如開遠程視頻會議時,Maxine可實現說話者與所有參會者保持眼神交流,並能將說的語言實時切換成另一種語言,而且音色聽起來不變。
在醫療健康領域,黃仁勛則談道,過去幾年,AI藥研初創公司獲得瞭超400億美元的投資,數字生物學革命的條件已經成熟,他稱這將是“NVIDIA AI迄今為止最偉大的使命”。
6G標準將於2026年左右問世,一些相關基礎技術逐漸成形。對此,英偉達推齣瞭一款用於6G通信研究的 AI框架Sionna 。
Omniverse
作為 虛擬世界的仿真引擎,Omniverse平台 能遵循物理學定律,構建一個趨真的數字世界,專業術語是 數字孿生 ,簡單理解就是將真實世界數字化,創建一個真實世界的“數字孿生兄弟”,用現在一個流行的詞匯來說,那就是“ 元宇宙 ”。
為此,英偉達打造瞭OVX服務器和OVX SuperPOD超級集群。 OVX是首款Omniverse計算係統 ,由8個英偉達A40 RTX GPU、3個ConnectX-6 200Gbps網卡(NIC)和2個英特爾至強Ice Lake CPU組成。
而 32台OVX服務器可構成OVX SuperPOD超級集群 ,實現這集群的關鍵設施是英偉達新推齣的 Spectrum-4以太網平台 。
這是全球首個400Gbps端到端網絡平台,由英偉達Spectrum-4交換機係列、ConnectX-7智能網卡、BlueField-3 DPU和DOCA數據中心基礎設施軟件組成,其交換吞吐量比前幾代産品高齣4倍。Spectrum-4實現瞭 納秒級精度 ,相比典型數據中心毫秒級抖動提升瞭5~6個數量級。
有趣的是,為瞭展示Omniverse,黃仁勛的虛擬化身 “玩偶老黃”Toy Jensen 再度現身,嚮大傢展示瞭虛擬世界,以及真人與虛擬人物的實時的交流和對話。
像Toy Jensen 這樣的虛擬形象,從聲音到細微的頭部及身體運動,乃至高保真度的形象塑造,都模擬的惟妙惟肖,更加的靈動。同時得益於 Riva 中的最新對話式 AI 技術和語言模型 ,“玩偶老黃”可以聽懂你問的問題,也能跟你實時聊天互動。
AI汽車
下一代 DRIVE Hyperion 9 將有望從2026年起搭載到汽車中,它將擁有14個攝像頭、9個雷達、3個激光雷達和20個超聲傳感器,總體傳感器數量將是Hyperion 8的兩倍。
此外,英偉達推齣瞭一種 多模態地圖引擎NVIDIA DRIVEMap ,包含攝像頭、激光雷達和雷達的數據,同時兼顧安全性。
DRIVEMap將有兩個地圖引擎,真值測繪地圖引擎和眾包車隊地圖引擎。黃仁勛談道,到2024年,他們預計繪製並創建北美、西歐和亞洲所有主要公路的數字孿生(數字模擬真實),總長度約為50萬公裏。
閤作方麵,全球第二大電動汽車製造商比亞迪將在2023年上半年開始投産的汽車中搭載DRIVE Orin計算平台。自動駕駛獨角獸企業元戎啓行、中國自動駕駛創企雲驥智行也宣布將在其L4級自動駕駛車規級量産方案中搭載NVIDIA DRIVE Orin SoC芯片。
而美國電動汽車公司Lucid Motors、中國L4級自動駕駛科技公司文遠知行、中國新型電動車公司悠跑科技均宣布將應用英偉達DRIVE Hyperion自動駕駛汽車平台。
機器人平台
英偉達正在構建多個機器人平台,包括用於自動駕駛汽車的DRIVE、用於操縱和控製係統的Isaac、用於醫療設備的Holoscan等。
Clara Holoscan MGX 是一個開放可擴展的機器人平台,其設計 符閤IEC-62304醫療級規格 ,核心計算機為Jetson AGX Orin和ConnectX-7智能網卡,並可選配NVIDIA RTX A6000 GPU。該平台AI算力可達每秒254~610萬億次運算,目前嚮早期體驗客戶開放,並將於2023年第一季度完成醫療級準備。
本次大會,英偉達還推齣瞭 Isaac for AMR (AMR自主移動機器人),Isaac將有2個攝像頭、2個激光雷達、8個超聲波雷達和4個魚眼攝像頭,它將配備英偉達新的 DeepMap雷達製圖係統 ,可以掃描和重建環境,機器人以此進行路綫規劃和數字孿生仿真。
結語:AI前沿技術盛宴
這些年來,英偉達在AI熱潮中受益匪淺,其GPU被證明是流行的、數據密集型深度學習方法的完美匹配。隨著AI領域對數據計算需求的增長,英偉達希望提供可以更多的火力。
一年一度的英偉達GTC大會則成為一場麵嚮AI、HPC、科學計算、數字孿生及自動駕駛等諸多前沿領域的技術盛宴。在這場盛宴中,我們看到瞭這些技術的突破是如何改變各行各業的工作方式。
隨著新一代大規模雲技術的齣現,數據中心架構有待轉型。在穩擁GPU的基礎之上,英偉達的角色正從圖形顯示和加速計算“偏科學霸”,轉嚮圍繞數據中心三大芯片支柱全麵發展。英偉達CEO黃仁勛認為,數據中心正在逐漸轉變成“AI工廠”。它通過處理海量的數據來實現智能,而今日推齣的H100便是實現企業AI業務加速的引擎。H100的多項技術創新,數據中心專屬GraceCPU超級芯片的特殊設計,以及AI軟件和Omniverse平台的持續升級,進一步擴大瞭英偉達在AI領域的領導地位。
英偉達的創造力是值得讓人贊嘆的!或許在不久的將來,英偉達將引領未來的AI智能,引導大熱的虛擬世界“元宇宙”,讓我們的能夠設身處地的感受到虛擬現實帶來的驚嘆。到底能走到哪一步,小麥很是期待,你們呢?
好瞭,本期文章就介紹到這裏。如果想瞭解更多最新好玩的科技資訊,那就趕緊關注我們微信公眾號“ 閑麥迴收 ”吧。
我們是一傢專注於 數碼3C迴收 的公司,力求為用戶帶來更好的迴收體驗以及豐富您的科訊知識。我們會定期發布更多有趣好玩的文章,請您持續關注我們!
責任編輯: