久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當前的位置: 首頁 > 新聞 > 其他

超越NVIDIA H100!訓練快40% 推理快50%:Intel Gaudi3憑什么

來源:芯智訊   編輯:非小米 時間:2024-04-10 16:30人閱讀

北京時間4月9日晚間,Intel在美國召開了“Intel Vision 2024”大會,介紹了Intel在AI領域取得的成功,并發布了新一代的云端AI芯片Gaudi 3及第六代至強(Xeon)可擴展處理器,進一步拓展了Intel的AI產品路線圖。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

AI芯片市場的巨大機遇

在生成式AI持續爆發背景之下,市場對于AI芯片的需求正高速增長。根據市場研究機構Gartner最新預測,到2024年AI芯片市場規模將較上一年增長 25.6%,達到671億美元,預計到2027年,AI芯片市場規模預計將是2023年規模的兩倍以上,達到1194億美元。

Intel也表示,到2030年,半導體市場規模將達1萬億美元,人工智能是主要推動力。創新技術正在以前所未有的速度發展,每家公司都在加速成為AI公司,這一切都需要半導體技術提供支持。從PC到數據中心再到邊緣,Intel正在讓AI走進千行百業。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

在邊緣AI市場,Intel已經發布了涵蓋Intel酷睿Ultra、Intel酷睿、Intel凌動處理器和Intel銳炫顯卡系列產品在內的全新邊緣芯片,主要面向零售、工業制造和醫療等關鍵領域。

Intel邊緣AI產品組合內的所有新品將于本季度上市,并將在今年年內獲得Intel剛剛發布的Intel Tiber邊緣解決方案平臺的支持,以簡化企業軟件和服務的部署,包括生成式AI。

對于去年推出的面向AI PC產品的Intel酷睿Ultra處理器,憑借強大的AI內核,為生產力、安全性和內容創作提供了全新能力,并為企業煥新其PC設備提供了巨大動力。Intel預計將于2024年出貨4000萬臺AI PC,以及超過230種的設計,覆蓋輕薄PC和游戲掌機設備。

同時,Intel透露將于2024年推出的下一代Intel酷睿Ultra客戶端處理器家族(代號Lunar Lake),將具備超過100 TOPS平臺算力,以及在神經網絡處理單元(NPU)上帶來超過46 TOPS的算力,從而為下一代AI PC提供強大支持。

在面向云端的數據中心市場,Intel在2022年就推出了AI加速芯片Gaudi 2,在去年年底還推出了集成了AI內核的代號為“Emerald Rapids”的面向數據中心的第五代 Xeon處理器。

Intel公司首席執行官帕特·基辛格表示:“創新技術正在以前所未有的速度發展,每家公司都在加速成為AI公司,這一切都需要半導體技術提供支持。從PC到數據中心再到邊緣,Intel正在讓AI走進千行百業。Intel最新的Gaudi、至強和酷睿平臺將提供靈活的、可定制化的解決方案,滿足客戶和合作伙伴不斷變化的需求,把握住未來的巨大機遇。”

Gaudi 3:BF16性能提升4倍,支持1800億參數大模型

而在云端AI加速芯片市場,Intel早在2019年12月就斥資20億美元收購Habana Labs(其于2019 年 7 月推出了 Gaudi 1 加速器),雖然當時英偉達在AI芯片市場的體量還很小,但是在AI芯片的技術積累上,英偉達更為深厚。因此,我們可以看到,當2022年Gaudi 2 推出之時,其也只能與英偉達A100進行對標。

為了進一步加強在云端AI加速芯片市場的競爭力,在此次“Intel Vision 2024”大會上,Intel正式推出了全新的Gaudi 3。雖然整體得到了大幅提升,但是依然只能是與英偉達上一代的H100/H200競爭。

據介紹,Gaudi 3采用的是臺積電5nm工藝,在芯片設計上,Gaudi 3轉向了具有兩個計算集群的Chiplet的設計,而不是Gaudi 2所采用的單個集群的方案。

Gaudi 3 擁有 8 個矩陣數學引擎、64 個張量內核、96MB SRAM(每個Tile 48MB,可提供12.8 TB/s的總帶寬) 和 128 GB HBM2e 內存,16 個 PCIe 5.0 通道和 24 個 200GbE 鏈路 。

在計算核心的周圍,則是八個HBM2e內存堆棧,總容量為128 GB,帶寬為3.7 TBps。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

與上一代的Gaudi 2 相比,Gaudi 3在BF16工作負載方面的性能將是Gaudi 2的四倍,FP8性能也將是Gaudi 2 的兩倍,網絡性能也是Gaudi 2的兩倍(Gaudi 2是24個內置的100 GbE RoCE Nic),HBM容量是Gaudi 2的1.5倍。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

另外,Gaudi 3 設備中的張量內核支持與 Gaudi 32 相同的 FP32、TF32、BF16、FP16 和 FP8 數據格式,并且不支持 FP4 精度。相比之下英偉達新的Blackwell GPU 將支持 FP2 精度,而英偉達現有的 Hopper GPU 則不支持。

Intel表示,Gaudi 3預計可大幅縮短70億和130億參數Llama2模型,以及1750億參數GPT-3模型的訓練時間。此外,在Llama 7B、70B和Falcon 180B大型語言模型(LLM)的推理吞吐量和能效方面也展現了出色性能。

盡管Gaudi 3 與英偉達的Blackwell GPU有著很多相似之處,但Intel旗下Habana首席運營官Eitan Medina強調,這不是GPU。

“GPU傳統上是被設計為進行圖形渲染,是關于渲染像素的,所以自然而然地,選擇實現許多小的執行單元,因為像素就是像素”,他解釋道。“圖形渲染不需要巨大的矩陣乘法。而Gaudi3 是使用數量較少的非常大的矩陣數學引擎構建的,這些引擎能夠更有效地處理 AI 工作負載?!?/p>

雖然Gaudi 3是Intel最新一代的AI加速芯片,相比上一代的Gaudi 2帶來了很大的提升,但是其仍然難以與英偉達最新的B200或者AMD最新的MI300X系列競爭。

顯然,IntelGaudi 3 的主要對標的也是英偉達H100/H200。

訓練性能比英偉達H100快了40%,推理快了50%

根據Intel官方公布的數據顯示,Gaudi 3 在流行的大語言模型(LLM)訓練速度方面,比英偉達H100平均快了40%;在流行大模型的推理能效表現上,比如英偉達H100領先50%。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

具體來看,Intel Gaudi 3 與英偉達 H100 在相同節點數量下,相關大模型訓練時間對比上最高快了1.7倍。

其中,LLAMA2 70 億參數對比有 1.5 倍于 H100 的優勢,LLAMA2 130 億參數最高有 1.7 倍的優勢,GPT 3 1750 億參數有 1.4 倍優勢。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

在大模型推理速度表現上,Gaudi 3 相比 H100 平均快了1.5倍,最高快了4倍。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

在大模型推理能效表現上,Gaudi 3 相比 H100 最高提升2.3倍。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

在更高性能的能效表現上,Gaudi 3 相比 H100 最高也提升了2.3倍。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

從具體的芯片性能方面來看,Theregister的報道顯示,Gaudi 3 的密集的浮點性能為1,835 teraFLOPS ,而英偉達則依靠稀疏性來實現其公布的4 petaFLOPS性能。

考慮到這一點,Gaudi3 僅比 H100 慢了約 144 teraFLOPS,同時提供了更多的HBM內存容量。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

在半精度(FP16/BF16)下,Gaudi 3 可以實現相同的1,835 teraFLOPS性能,使其比英偉達H100領先了1.85 倍,比AMD MI300X 領先了 1.4 倍。但是,Gaudi 3不支持稀疏性。

“稀疏性是經過大量研究的東西,但我們并不依賴它。”Medina補充說,Intel“沒有立即計劃”在 Gaudi 3 上啟用稀疏性以進行訓練或推理。

由于浮點性能只是 AI 性能對標的一個指標,HBM內存帶寬在決定AI性能方面也起著巨大的作用,尤其是對于較大模型來說。

目前英偉達B200和AMD MI300X都配備了192GB HBM3e/HBM3,英偉達上代的H200也配備了141GB HBM3。

顯然,Gaudi 3在這方面是相對落后不少的,僅比H100多一些,但還是較舊的HBM2e,這也使得其在HBM內存帶寬上僅有3.7 TBps,遠低于英偉達H200的4.8 GBps 和 AMD MI300X的 5.3 TBps。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

對此,Medina解釋稱,繼續使用HBM2e的決定,是因為風險管理。

“我們的只使用在流片之前已經在芯片中得到驗證的IP。在我們流片Gaudi 3 時,還沒有經過驗證符合我們標準的可用物理層。”

大規模互聯

無論是 FP8 還是 FP16/BF16,一個大語言模型在多個AI加速器上運行并不罕見。例如,要在 FP16 上推理一個 1750 億參數的大模型,至少需要五個 80GB HBM內存的 H100 才能將模型放入其中。

為此,英偉達 和 AMD 分別使用稱為 NVLink 和 Infinity Fabric 的專用互連器,它們提供大約 900 GBps 的帶寬,將八個或更多AI加速器拼接在一起。相比之下,IntelGaudi3 使用的是常規的舊RDMA融合以太網(ROCe)。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

但是,Gaudi 3具有 24 個 200GbE 接口,總帶寬為 1.2 TBps。24 條鏈路中有 3 條專用于節點外通信,剩余 1 TBps 用于服務器內的芯片到芯片通信。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

這樣做有幾個好處。

首先,從理論上講,Gaudi 3系統應該簡單得多,因為它們需要更少的組件。在典型的 英偉達 或 AMD 系統中,每個 GPU 至少有一個用于計算網絡的 NIC。

Intel認為,通過將以太網網卡集成到其Gaudi 3 加速器中,使用傳統的骨干葉架構擴展以支持 512 甚至 1,024 個節點集群也更容易。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

△要獲得 512 個服務器節點上的 4,096 個 Gaudi 3 加速器,需要構建 32 個子集群,并將 96 個葉交換機與三組 16 個主干交換機交叉鏈接,這將為您提供三種不同的路徑,通過兩層網絡將任何 Gaudi 3 鏈接到任何其他 Gaudi 3。

軟件生態

軟件生態方面,Intel Gaudi 3 針對生成式 AI 提供端到端全棧 AI 軟件解決方案,包括嵌入式軟件、軟件套件、AI 軟件、AI 應用。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

Gaudi 3 可以支持基于還支持多模態、大語言模型、增強檢索生成核心能力的 3D 生成、文本生成、視頻圖片生成、內容總結、翻譯、問答、分級等常見 AI 功能。

依靠豐富的 AI 軟件生態,Gaudi 3 也支持常見的 AI 框架庫、使用場景和工具,并對有代表性的模型進行支持。Intel還提供 Gaudi 軟件套件,提供對底層硬件的支持。

Gaudi 3提供開放的、基于社區的軟件,以及行業標準以太網網絡,可以靈活地從單個節點擴展到擁有數千個節點的集群、超級集群和超大集群,支持大規模的推理、微調和訓練。

三種形態產品

對于Gaudi 3 硬件,Intel提供了OAM兼容夾層卡(Mezzanine Card)、通用基板(Universal Baseboard)、PCle加速卡三種形態產品。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

Gaudi 3 Universal Baseboard有些類似英偉達DGX H100,集成了八個Gaudi 3芯片。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

三季度交付

Intel在 Vision 2024 上也公布了 Gaudi 3 生產節點,2024 年一季度將率先推出風冷版樣品,二季度推出液冷版樣品,并在今年第三、第四季度分別批量交付風冷版和液冷版。

在此基礎上,Intel也宣布 Gaudi 3 今年下半年可在Intel Developer Cloud 獲得。除了Intel Gaudi 3 加速器之外,Intel還提供了關于其在企業 AI 各個領域的下一代產品和服務的更新。

OEM供應商及行業客戶

Gaudi 3 硬件將由戴爾、惠與、聯想和超微四家 OEM 廠商提供。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

目前,IntelGaudi加速器的行業客戶及合作伙伴有NAVER、博世(Bosch)、IBM、Ola/Krutrim、NielsenIQ、Seekr、IFF、CtrlS Group、Bharti Airtel、Landing AI、Roboflow、Infosys,等等。

第六代至強可擴展處理器“Xeon 6”

繼去年12月Intel正式推出了集成NPU內核的代號為“Emerald Rapids”的第五代至強(Xeon)可擴展處理器之后,Intel此次正式公布了第六代Xeon處理器,Intel將其重新命名為了“Intel Xeon 6”系列。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

和之前曝光的信息一樣,Intel Xeon 6系列擁有基于性能核(P-core)的 Xeon 6(此前代號為Granite Rapids)和基于能效核(E-core)的 Xeon 6(此前代號為Sierra Forest)兩個系列。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

其中,配備能效核的Intel至強6處理器具有144 核和 288 核的兩種配置,相比第二代Intel Xeon 處理器,每瓦性能提高了 2.4 倍,并且機架密度提高了 2.7 倍。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

對于Intel的客戶而言,可以以接近 3 比 1 的比例替換老舊系統,大幅降低能耗,推動實現可持續發展目標。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

配備性能核的Intel至強6處理器則包含了對MXFP4數據格式的軟件支持,與使用FP16的第四代至強處理器相比,可將下一個令牌(token)的延遲時間最多縮短6.5倍,能夠運行700億參數的Llama-2模型。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么
△IntelCEO基辛格展示Sierra Forest與Granite Rapids晶圓

Intel表示,配備能效核的Intel至強6處理器將于2024年第二季度推出,提供卓越的效率,配備性能核的Intel至強6處理器將緊隨其后推出,帶來更高的AI性能。

生態系統聯合共建開放平臺

此外,Intel還宣布聯合Anyscale、DataStax、Domino、Hugging Face、KX Systems、MariaDB、MinIO、Qdrant、RedHat、Redis、SAP、SAS、VMware、Yellowbrick、Zilliz等伙伴,共同創建一個開放平臺,助力企業推動AI創新。

該計劃旨在開發開放的、多供應商的AIGC系統,通過RAG(檢索增強生成)技術,提供一流的部署便利性、性能和價值。RAG可使企業在標準云基礎設施上運行的大量現存專有數據源得到開放大語言模型(LLM)功能的增強。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

初始階段,Intel將利用至強處理器、Gaudi加速器,推出AIGC流水線的參考實現,發布技術概念框架,并繼續加強Intel Tiber開發者云平臺基礎設施的功能。

超越英偉達H100!訓練快40% 推理快50%:英特爾Gaudi3憑什么

另外值得一提的是,通過超以太網聯盟(UEC),Intel正在驅動面向AI高速互聯技術(AI Fabrics)的開放式以太網網絡創新,并推出一系列針對AI優化的以太網解決方案。這些創新旨在革新可大規??v向(scale-up)和橫向(scale-out)擴展的AI高速互聯技術,以支持AI模型的訓練和推理,這些模型的規模日益龐大,每一代都會增長一個數量級。

Intel的產品組合包括IntelAI網絡連接卡(AI NIC)、集成到XPU的AI連接芯粒、基于Gaudi加速器的系統,以及一系列面向Intel代工的AI互聯軟硬件參考設計。

本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

相關文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
夜夜嗨av一区二区三区| 国产精品日韩欧美大师| 亚洲电影中文字幕| 亚洲高清不卡在线| 欧美成人一区二区三区片免费| 亚洲电影免费观看高清完整版| 免费久久精品视频| 欧美精品情趣视频| 午夜精品久久久久久久蜜桃app | 欧美国产日本韩| 欧美高清视频| 午夜精品久久久久久99热软件| 亚洲欧美在线看| 亚洲国产日韩欧美在线99| 亚洲日本电影| 亚洲一区二区三区高清不卡| 国产一区二区三区四区| 欧美国产高潮xxxx1819| 国产精品www| 久久―日本道色综合久久| 牛夜精品久久久久久久99黑人| 亚洲色无码播放| 久久精品免视看| 中文一区二区| 久久视频在线看| 亚洲欧美日韩在线| 欧美不卡视频一区| 欧美一区二区三区日韩| 欧美成人亚洲成人| 久久米奇亚洲| 欧美视频成人| 欧美激情亚洲| 黑人操亚洲美女惩罚| 99www免费人成精品| 亚洲国产天堂久久综合网| 亚洲午夜极品| a4yy欧美一区二区三区| 久久综合久久美利坚合众国| 亚洲欧美日韩国产成人| 欧美黄色片免费观看| 久久久久久9| 国产精品久久中文| 亚洲精选91| 国产精品99久久久久久有的能看| 欧美激情视频一区二区三区在线播放| 在线视频你懂得一区二区三区| 午夜精品福利在线| 亚洲免费一区二区| 欧美精品在线看| 亚洲大胆女人| 狠狠色丁香婷综合久久| 欧美亚洲日本国产| 午夜视频久久久| 国产精品大片| 亚洲线精品一区二区三区八戒| 亚洲精品日日夜夜| 免费亚洲电影| 欧美第一黄色网| 在线观看日韩一区| 久久久久网站| 欧美成人午夜视频| 亚洲国产高清视频| 久久蜜桃精品| 欧美电影资源| 亚洲人成人一区二区在线观看| 久久精品亚洲| 欧美国产精品va在线观看| 亚洲大片av| 欧美高清一区二区| 亚洲人成在线观看一区二区 | 99国内精品| 在线亚洲免费视频| 欧美午夜寂寞影院| 亚洲欧美激情视频| 久久久久一区| 亚洲精品乱码久久久久| 欧美极品欧美精品欧美视频| 日韩视频在线你懂得| 一区二区电影免费在线观看| 国产精品久久| 欧美在线视频一区二区| 欧美高清视频一区二区| 亚洲蜜桃精久久久久久久| 欧美日韩在线观看一区二区| 中日韩在线视频| 免费日韩一区二区| 亚洲毛片av| 国产精品系列在线播放| 久久久久久**毛片大全| 亚洲精品国精品久久99热一| 亚洲欧美综合| 红桃视频欧美| 欧美午夜无遮挡| 久久九九精品99国产精品| 亚洲日本乱码在线观看| 欧美在线播放一区| 亚洲精品国精品久久99热一| 国产精品乱码妇女bbbb| 狼人天天伊人久久| 亚洲无亚洲人成网站77777 | 老鸭窝91久久精品色噜噜导演| 99国产精品| 国产在线一区二区三区四区 | 国产一区久久| 欧美成人精品h版在线观看| 91久久久亚洲精品| 国产女同一区二区| 欧美国产综合一区二区| 性欧美大战久久久久久久久| 亚洲激情不卡| 另类欧美日韩国产在线| 亚洲免费影院| 日韩一级不卡| 亚洲黄色成人网| 狠狠88综合久久久久综合网| 国产精品高清网站| 欧美成人情趣视频| 久久久人成影片一区二区三区观看| 日韩特黄影片| 亚洲国产视频一区| 蜜臀91精品一区二区三区| 欧美在线不卡视频| 亚洲女同精品视频| 一区二区免费在线观看| 亚洲国产精品精华液2区45 | 欧美成人精品一区二区三区| 久久狠狠婷婷| 午夜精品久久久久久| 国产精品99久久久久久久女警| 亚洲电影免费| 欧美肥婆在线| 欧美成人午夜激情在线| 欧美不卡高清| 欧美激情视频免费观看| 欧美成人黄色小视频| 久久中文欧美| 久热成人在线视频| 久久人人超碰| 另类春色校园亚洲| 蘑菇福利视频一区播放| 麻豆9191精品国产| 嫩草国产精品入口| 欧美激情91| 亚洲欧洲日本国产| 亚洲精品中文字幕在线| 亚洲美女精品成人在线视频| 亚洲免费av网站| 宅男噜噜噜66一区二区| 亚洲性线免费观看视频成熟| 亚洲尤物在线| 久久久91精品国产一区二区三区| 欧美综合国产| 蜜桃久久精品乱码一区二区| 欧美成人精品1314www| 欧美日韩第一区日日骚| 欧美午夜视频在线| 国产一区二区三区免费不卡| 国产主播精品在线| 亚洲区一区二| 亚洲一级在线观看| 久久久久国产精品一区三寸| 欧美大片在线观看一区| 亚洲精品日韩在线观看| 亚洲在线一区| 免费在线亚洲| 欧美性一区二区| 一区二区三区在线免费播放| 亚洲人成在线观看| 亚洲欧美在线另类| 欧美成人国产| 亚洲视频在线免费观看| 欧美在线观看一区二区| 欧美久久视频| 韩曰欧美视频免费观看| 一本大道久久a久久综合婷婷| 午夜精品久久久久久久99黑人| 免费av成人在线| 亚洲性感美女99在线| 免费永久网站黄欧美| 国产精品永久免费视频| 亚洲激情六月丁香| 欧美一级理论片| 亚洲黄色在线看| 午夜精品一区二区三区在线播放 | 老色批av在线精品| 亚洲美女精品久久| 欧美在线观看网站| 国产精品久久久久天堂| 亚洲国产精品女人久久久| 欧美一区二区三区精品| 亚洲精品资源美女情侣酒店| 久久久国产精品一区| 国产精品第三页| 日韩小视频在线观看| 久久天堂成人| 翔田千里一区二区| 欧美午夜精品久久久久免费视| 亚洲国产高清aⅴ视频| 久久精品久久综合| 在线综合亚洲|