超越NVIDIA H100!訓練快40% 推理快50%:Intel Gaudi3憑什么
北京時間4月9日晚間,Intel在美國召開了“Intel Vision 2024”大會,介紹了Intel在AI領域取得的成功,并發布了新一代的云端AI芯片Gaudi 3及第六代至強(Xeon)可擴展處理器,進一步拓展了Intel的AI產品路線圖。
AI芯片市場的巨大機遇
在生成式AI持續爆發背景之下,市場對于AI芯片的需求正高速增長。根據市場研究機構Gartner最新預測,到2024年AI芯片市場規模將較上一年增長 25.6%,達到671億美元,預計到2027年,AI芯片市場規模預計將是2023年規模的兩倍以上,達到1194億美元。
Intel也表示,到2030年,半導體市場規模將達1萬億美元,人工智能是主要推動力。創新技術正在以前所未有的速度發展,每家公司都在加速成為AI公司,這一切都需要半導體技術提供支持。從PC到數據中心再到邊緣,Intel正在讓AI走進千行百業。
在邊緣AI市場,Intel已經發布了涵蓋Intel酷睿Ultra、Intel酷睿、Intel凌動處理器和Intel銳炫顯卡系列產品在內的全新邊緣芯片,主要面向零售、工業制造和醫療等關鍵領域。
Intel邊緣AI產品組合內的所有新品將于本季度上市,并將在今年年內獲得Intel剛剛發布的Intel Tiber邊緣解決方案平臺的支持,以簡化企業軟件和服務的部署,包括生成式AI。
對于去年推出的面向AI PC產品的Intel酷睿Ultra處理器,憑借強大的AI內核,為生產力、安全性和內容創作提供了全新能力,并為企業煥新其PC設備提供了巨大動力。Intel預計將于2024年出貨4000萬臺AI PC,以及超過230種的設計,覆蓋輕薄PC和游戲掌機設備。
同時,Intel透露將于2024年推出的下一代Intel酷睿Ultra客戶端處理器家族(代號Lunar Lake),將具備超過100 TOPS平臺算力,以及在神經網絡處理單元(NPU)上帶來超過46 TOPS的算力,從而為下一代AI PC提供強大支持。
在面向云端的數據中心市場,Intel在2022年就推出了AI加速芯片Gaudi 2,在去年年底還推出了集成了AI內核的代號為“Emerald Rapids”的面向數據中心的第五代 Xeon處理器。
Intel公司首席執行官帕特·基辛格表示:“創新技術正在以前所未有的速度發展,每家公司都在加速成為AI公司,這一切都需要半導體技術提供支持。從PC到數據中心再到邊緣,Intel正在讓AI走進千行百業。Intel最新的Gaudi、至強和酷睿平臺將提供靈活的、可定制化的解決方案,滿足客戶和合作伙伴不斷變化的需求,把握住未來的巨大機遇。”
Gaudi 3:BF16性能提升4倍,支持1800億參數大模型
而在云端AI加速芯片市場,Intel早在2019年12月就斥資20億美元收購Habana Labs(其于2019 年 7 月推出了 Gaudi 1 加速器),雖然當時英偉達在AI芯片市場的體量還很小,但是在AI芯片的技術積累上,英偉達更為深厚。因此,我們可以看到,當2022年Gaudi 2 推出之時,其也只能與英偉達A100進行對標。
為了進一步加強在云端AI加速芯片市場的競爭力,在此次“Intel Vision 2024”大會上,Intel正式推出了全新的Gaudi 3。雖然整體得到了大幅提升,但是依然只能是與英偉達上一代的H100/H200競爭。
據介紹,Gaudi 3采用的是臺積電5nm工藝,在芯片設計上,Gaudi 3轉向了具有兩個計算集群的Chiplet的設計,而不是Gaudi 2所采用的單個集群的方案。
Gaudi 3 擁有 8 個矩陣數學引擎、64 個張量內核、96MB SRAM(每個Tile 48MB,可提供12.8 TB/s的總帶寬) 和 128 GB HBM2e 內存,16 個 PCIe 5.0 通道和 24 個 200GbE 鏈路 。
在計算核心的周圍,則是八個HBM2e內存堆棧,總容量為128 GB,帶寬為3.7 TBps。
與上一代的Gaudi 2 相比,Gaudi 3在BF16工作負載方面的性能將是Gaudi 2的四倍,FP8性能也將是Gaudi 2 的兩倍,網絡性能也是Gaudi 2的兩倍(Gaudi 2是24個內置的100 GbE RoCE Nic),HBM容量是Gaudi 2的1.5倍。
另外,Gaudi 3 設備中的張量內核支持與 Gaudi 32 相同的 FP32、TF32、BF16、FP16 和 FP8 數據格式,并且不支持 FP4 精度。相比之下英偉達新的Blackwell GPU 將支持 FP2 精度,而英偉達現有的 Hopper GPU 則不支持。
Intel表示,Gaudi 3預計可大幅縮短70億和130億參數Llama2模型,以及1750億參數GPT-3模型的訓練時間。此外,在Llama 7B、70B和Falcon 180B大型語言模型(LLM)的推理吞吐量和能效方面也展現了出色性能。
盡管Gaudi 3 與英偉達的Blackwell GPU有著很多相似之處,但Intel旗下Habana首席運營官Eitan Medina強調,這不是GPU。
“GPU傳統上是被設計為進行圖形渲染,是關于渲染像素的,所以自然而然地,選擇實現許多小的執行單元,因為像素就是像素”,他解釋道。“圖形渲染不需要巨大的矩陣乘法。而Gaudi3 是使用數量較少的非常大的矩陣數學引擎構建的,這些引擎能夠更有效地處理 AI 工作負載?!?/p>
雖然Gaudi 3是Intel最新一代的AI加速芯片,相比上一代的Gaudi 2帶來了很大的提升,但是其仍然難以與英偉達最新的B200或者AMD最新的MI300X系列競爭。
顯然,IntelGaudi 3 的主要對標的也是英偉達H100/H200。
訓練性能比英偉達H100快了40%,推理快了50%
根據Intel官方公布的數據顯示,Gaudi 3 在流行的大語言模型(LLM)訓練速度方面,比英偉達H100平均快了40%;在流行大模型的推理能效表現上,比如英偉達H100領先50%。
具體來看,Intel Gaudi 3 與英偉達 H100 在相同節點數量下,相關大模型訓練時間對比上最高快了1.7倍。
其中,LLAMA2 70 億參數對比有 1.5 倍于 H100 的優勢,LLAMA2 130 億參數最高有 1.7 倍的優勢,GPT 3 1750 億參數有 1.4 倍優勢。
在大模型推理速度表現上,Gaudi 3 相比 H100 平均快了1.5倍,最高快了4倍。
在大模型推理能效表現上,Gaudi 3 相比 H100 最高提升2.3倍。
在更高性能的能效表現上,Gaudi 3 相比 H100 最高也提升了2.3倍。
從具體的芯片性能方面來看,Theregister的報道顯示,Gaudi 3 的密集的浮點性能為1,835 teraFLOPS ,而英偉達則依靠稀疏性來實現其公布的4 petaFLOPS性能。
考慮到這一點,Gaudi3 僅比 H100 慢了約 144 teraFLOPS,同時提供了更多的HBM內存容量。
在半精度(FP16/BF16)下,Gaudi 3 可以實現相同的1,835 teraFLOPS性能,使其比英偉達H100領先了1.85 倍,比AMD MI300X 領先了 1.4 倍。但是,Gaudi 3不支持稀疏性。
“稀疏性是經過大量研究的東西,但我們并不依賴它。”Medina補充說,Intel“沒有立即計劃”在 Gaudi 3 上啟用稀疏性以進行訓練或推理。
由于浮點性能只是 AI 性能對標的一個指標,HBM內存帶寬在決定AI性能方面也起著巨大的作用,尤其是對于較大模型來說。
目前英偉達B200和AMD MI300X都配備了192GB HBM3e/HBM3,英偉達上代的H200也配備了141GB HBM3。
顯然,Gaudi 3在這方面是相對落后不少的,僅比H100多一些,但還是較舊的HBM2e,這也使得其在HBM內存帶寬上僅有3.7 TBps,遠低于英偉達H200的4.8 GBps 和 AMD MI300X的 5.3 TBps。
對此,Medina解釋稱,繼續使用HBM2e的決定,是因為風險管理。
“我們的只使用在流片之前已經在芯片中得到驗證的IP。在我們流片Gaudi 3 時,還沒有經過驗證符合我們標準的可用物理層。”
大規模互聯
無論是 FP8 還是 FP16/BF16,一個大語言模型在多個AI加速器上運行并不罕見。例如,要在 FP16 上推理一個 1750 億參數的大模型,至少需要五個 80GB HBM內存的 H100 才能將模型放入其中。
為此,英偉達 和 AMD 分別使用稱為 NVLink 和 Infinity Fabric 的專用互連器,它們提供大約 900 GBps 的帶寬,將八個或更多AI加速器拼接在一起。相比之下,IntelGaudi3 使用的是常規的舊RDMA融合以太網(ROCe)。
但是,Gaudi 3具有 24 個 200GbE 接口,總帶寬為 1.2 TBps。24 條鏈路中有 3 條專用于節點外通信,剩余 1 TBps 用于服務器內的芯片到芯片通信。
這樣做有幾個好處。
首先,從理論上講,Gaudi 3系統應該簡單得多,因為它們需要更少的組件。在典型的 英偉達 或 AMD 系統中,每個 GPU 至少有一個用于計算網絡的 NIC。
Intel認為,通過將以太網網卡集成到其Gaudi 3 加速器中,使用傳統的骨干葉架構擴展以支持 512 甚至 1,024 個節點集群也更容易。
△要獲得 512 個服務器節點上的 4,096 個 Gaudi 3 加速器,需要構建 32 個子集群,并將 96 個葉交換機與三組 16 個主干交換機交叉鏈接,這將為您提供三種不同的路徑,通過兩層網絡將任何 Gaudi 3 鏈接到任何其他 Gaudi 3。
軟件生態
軟件生態方面,Intel Gaudi 3 針對生成式 AI 提供端到端全棧 AI 軟件解決方案,包括嵌入式軟件、軟件套件、AI 軟件、AI 應用。
Gaudi 3 可以支持基于還支持多模態、大語言模型、增強檢索生成核心能力的 3D 生成、文本生成、視頻圖片生成、內容總結、翻譯、問答、分級等常見 AI 功能。
依靠豐富的 AI 軟件生態,Gaudi 3 也支持常見的 AI 框架庫、使用場景和工具,并對有代表性的模型進行支持。Intel還提供 Gaudi 軟件套件,提供對底層硬件的支持。
Gaudi 3提供開放的、基于社區的軟件,以及行業標準以太網網絡,可以靈活地從單個節點擴展到擁有數千個節點的集群、超級集群和超大集群,支持大規模的推理、微調和訓練。
三種形態產品
對于Gaudi 3 硬件,Intel提供了OAM兼容夾層卡(Mezzanine Card)、通用基板(Universal Baseboard)、PCle加速卡三種形態產品。
Gaudi 3 Universal Baseboard有些類似英偉達DGX H100,集成了八個Gaudi 3芯片。
三季度交付
Intel在 Vision 2024 上也公布了 Gaudi 3 生產節點,2024 年一季度將率先推出風冷版樣品,二季度推出液冷版樣品,并在今年第三、第四季度分別批量交付風冷版和液冷版。
在此基礎上,Intel也宣布 Gaudi 3 今年下半年可在Intel Developer Cloud 獲得。除了Intel Gaudi 3 加速器之外,Intel還提供了關于其在企業 AI 各個領域的下一代產品和服務的更新。
OEM供應商及行業客戶
Gaudi 3 硬件將由戴爾、惠與、聯想和超微四家 OEM 廠商提供。
目前,IntelGaudi加速器的行業客戶及合作伙伴有NAVER、博世(Bosch)、IBM、Ola/Krutrim、NielsenIQ、Seekr、IFF、CtrlS Group、Bharti Airtel、Landing AI、Roboflow、Infosys,等等。
第六代至強可擴展處理器“Xeon 6”
繼去年12月Intel正式推出了集成NPU內核的代號為“Emerald Rapids”的第五代至強(Xeon)可擴展處理器之后,Intel此次正式公布了第六代Xeon處理器,Intel將其重新命名為了“Intel Xeon 6”系列。
和之前曝光的信息一樣,Intel Xeon 6系列擁有基于性能核(P-core)的 Xeon 6(此前代號為Granite Rapids)和基于能效核(E-core)的 Xeon 6(此前代號為Sierra Forest)兩個系列。
其中,配備能效核的Intel至強6處理器具有144 核和 288 核的兩種配置,相比第二代Intel Xeon 處理器,每瓦性能提高了 2.4 倍,并且機架密度提高了 2.7 倍。
對于Intel的客戶而言,可以以接近 3 比 1 的比例替換老舊系統,大幅降低能耗,推動實現可持續發展目標。
配備性能核的Intel至強6處理器則包含了對MXFP4數據格式的軟件支持,與使用FP16的第四代至強處理器相比,可將下一個令牌(token)的延遲時間最多縮短6.5倍,能夠運行700億參數的Llama-2模型。
△IntelCEO基辛格展示Sierra Forest與Granite Rapids晶圓
Intel表示,配備能效核的Intel至強6處理器將于2024年第二季度推出,提供卓越的效率,配備性能核的Intel至強6處理器將緊隨其后推出,帶來更高的AI性能。
生態系統聯合共建開放平臺
此外,Intel還宣布聯合Anyscale、DataStax、Domino、Hugging Face、KX Systems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、SAS、VMware、Yellowbrick、Zilliz等伙伴,共同創建一個開放平臺,助力企業推動AI創新。
該計劃旨在開發開放的、多供應商的AIGC系統,通過RAG(檢索增強生成)技術,提供一流的部署便利性、性能和價值。RAG可使企業在標準云基礎設施上運行的大量現存專有數據源得到開放大語言模型(LLM)功能的增強。
初始階段,Intel將利用至強處理器、Gaudi加速器,推出AIGC流水線的參考實現,發布技術概念框架,并繼續加強Intel Tiber開發者云平臺基礎設施的功能。
另外值得一提的是,通過超以太網聯盟(UEC),Intel正在驅動面向AI高速互聯技術(AI Fabrics)的開放式以太網網絡創新,并推出一系列針對AI優化的以太網解決方案。這些創新旨在革新可大規??v向(scale-up)和橫向(scale-out)擴展的AI高速互聯技術,以支持AI模型的訓練和推理,這些模型的規模日益龐大,每一代都會增長一個數量級。
Intel的產品組合包括IntelAI網絡連接卡(AI NIC)、集成到XPU的AI連接芯粒、基于Gaudi加速器的系統,以及一系列面向Intel代工的AI互聯軟硬件參考設計。
本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。
如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com