Intel為中國帶來Gaudi2 AI加速器:超高性價比!唯一替代NVIDIA GPU
毫無疑問,這是一個全民AI的時代。
如果你不能張口ChatGPT、閉口大模型,都不好啥意思跟人打招呼。
如果你不在AI上搞點東西,都不好意思說自己是科技企業(yè)。
當(dāng)然了,AI的歷史其實相當(dāng)悠久,遠不只是對個話、做個圖那么簡單。
無論是云側(cè)還是端側(cè),無論是生成式還是決策式,無論硬件還是算法,無論是訓(xùn)練推理還是應(yīng)用場景,都是相當(dāng)深奧的學(xué)問。
想真正做好AI,基礎(chǔ)硬件、開發(fā)軟件、生態(tài)場景都缺一不可,必須高效、合理地處理各種各樣的數(shù)據(jù)、模型、應(yīng)用,真正落到使用。
能有如此綜合實力的企業(yè)屈指可數(shù),Intel無疑就是一個典型標桿,從云到端都有豐富的AI解決方案,CPU通用處理器、GPU加速器、AI加速器任君按需選擇。
7月11日,Intel在中國舉辦了Intel AI產(chǎn)品戰(zhàn)略暨Gaudi2新品發(fā)布會,正式面向中國市場推出第二代深度學(xué)習(xí)加速器——Habana Gaudi2。
Intel Gaudi2加速器不但擁有極高的深度學(xué)習(xí)性能、效率,最大優(yōu)勢就是極高的性價比,對于中國用戶來說堪稱大規(guī)模部署AI的上佳之選。
Intel執(zhí)行副總裁兼數(shù)據(jù)中心與人工智能事業(yè)部總經(jīng)理Sandra Rivera在發(fā)布會上表示:“Intel致力于通過為客戶提供廣泛的硬件選擇,并支持開放的軟件環(huán)境,加速AI技術(shù)的發(fā)展。憑借包括至強可擴展處理器、Gaudi2深度學(xué)習(xí)加速器在內(nèi)的產(chǎn)品組合,Intel正在降低AI的準入門檻,并強化客戶在云端通過網(wǎng)絡(luò)和智能邊緣部署這一關(guān)鍵業(yè)務(wù)技術(shù)的能力,從而幫助構(gòu)建中國AI的未來。”
Habana Labs成立于2016年,致力于研發(fā)世界一流的AI加速器,滿足人工智能、深度學(xué)習(xí)計算快速發(fā)展的需求,創(chuàng)業(yè)初期就得到了Intel的投資,2019年12月被Intel正式收購。
Habana的第二代加速器Gaudi2采用臺積電7nm工藝制造,集成24個可編程的Tenor張量核心(TPC)、48MB SRAM緩存、21個10萬兆內(nèi)部互連以太網(wǎng)接口(ROCEv2 RDMA)、96GB HBM2E高帶寬內(nèi)存(總帶寬2.4TB/s)、多媒體引擎等,支持PCIe 4.0 x16,最高功耗800W。
基于Gaudi2加速器芯片,Intel還設(shè)計了夾層卡HL-225B,采用標準的OAM封裝接口,方便客戶部署與使用。
憑借高性能和高效擴展性,Gaudi2加速器可以滿足大規(guī)模語言模型、生成式AI模型的強算力需求。
↑↑↑Gaudi2加速器正面實拍
↑↑↑Gaudi2加速器背面實拍(這個角度不多見吧)
Gaudi系列加速器優(yōu)異的深度學(xué)習(xí)訓(xùn)練吞吐量、推理速度性能,已經(jīng)得到了業(yè)界領(lǐng)先機構(gòu)、客戶的普遍認可。
比如,正是在第一代Gaudi加速器的加持下,亞馬遜EC2 DL1實例相比于在AWS云上運行NVIDIA GPU的同類實例,性價比高出多達40%。
↑↑↑Gaudi2加速器現(xiàn)場演示多語言算法編程
機器學(xué)習(xí)與人工智能開放產(chǎn)業(yè)聯(lián)盟MLCommons在六月底公布的AI性能基準測試MLPerf Training 3.0的最新結(jié)果,更是進一步凸顯了Gaudi2加速器的高性能、高性價比,聯(lián)合Intel第四代至強可擴展處理器,已經(jīng)成為唯一能夠可靠取代NVIDIA GPU的方案。
截止2023年6月,Gaudi2是除了NVIDIA H100 GPU以外,向GPT-3大模型訓(xùn)練基準提交性能結(jié)果的解決方案。
測試結(jié)果顯示,面對要求極為苛刻的、1750億參數(shù)的GPT-3模型,384個Gaudi2加速器上的訓(xùn)練時間僅為311.9分鐘,而且從256個加速器到384個加速器,性能擴展幅度達95%,非常接近理想的線性提升。
Stable Diffusion訓(xùn)練上,Gaudi2加速器從1張卡到64張卡,擴展性更是達到了驚人的99%。
此外,在計算機視覺模型ResNet-50(8個加速器)和Unet3D(8個加速器),以及自然語言處理模型BERT(8個和64個加速器)上,Gaudi2都取得了優(yōu)異的訓(xùn)練結(jié)果。
與去年11月提交的數(shù)據(jù)相比,BERT和ResNet模型的性能分別提高了10%、4%。
值得一提的是,本次MLPerf 3.0的Gaudi2結(jié)果以BF16數(shù)據(jù)類型提交,在四種不同模型上的性能均優(yōu)于NVIDIA A100,價格更便宜。
第三季度還會發(fā)布對FP8數(shù)據(jù)類型的軟件支持與新功能,預(yù)計屆時Gaudi2的性能將有明顯飛躍,預(yù)計性價比將超越NVIDIA H100。
Gaudi2加速器還得到了AI與機器學(xué)習(xí)開源軟件供應(yīng)商Hugging Face的采納。
其測試結(jié)果顯示,從預(yù)訓(xùn)練BERT (NLP模型)到穩(wěn)定擴散(流行的多模態(tài)模型)推理,再到1760億參數(shù)的大型開源聊天模 BLOOMZ的推理,Gaudi2的表現(xiàn)都領(lǐng)先于NVIDIA A100 GPU。
工欲善其事,必先利其器。為了充分發(fā)揮Gaudi2加速器的性能潛力,滿足日益增長的生成式AI、大語言模型需求,Intel一直在同步打造高效、成熟的軟件支持。
比如說SynapseAI軟件套件,針對Gaudi平臺深度學(xué)習(xí)業(yè)務(wù)進行了優(yōu)化,可以大大簡化模型的開發(fā)與遷移,能夠?qū)?dāng)前基于GPU的模型業(yè)務(wù)和系統(tǒng),快速遷移到基于全新Gaudi2的服務(wù)器
SynapseAI集成了對TensorFlow、PyTorch框架的支持,并提供眾多流行的計算機視覺和自然語言參考模型,能夠滿足深度學(xué)習(xí)開發(fā)者的多樣化需求
生態(tài)合作方面,Intel Gaudi2加速器也正在遍地開花。
本次發(fā)布會上,美團、百度智能云、浪潮信息均分享了其基于Intel軟硬件產(chǎn)品組合的多樣化智能業(yè)務(wù)進展。
比如百度智能云,集成AMX加速引擎的Intel第四代至強可擴展處理器,為ERNIE-Tiny模型帶來了多倍的性能優(yōu)化。
比如浪潮信息,正式發(fā)布了全新的AI服務(wù)器NF5698G7,6U高度,上層集成八顆Gaudi2加速器,互連總帶寬達4.2Tb/s,下層雙路56核心第四代至強可擴展MAX處理器,支持AMX、DSA等AI加速器。
整體為全互聯(lián)拓撲結(jié)構(gòu),支持業(yè)界主流AI框架、開發(fā)工具、大模型算法,可滿足大模型訓(xùn)練張量并行數(shù)百GB/s的通信需求。
該服務(wù)器還有極高的擴展性,節(jié)點間互連帶寬最高達4800Gbps,支持RDMA網(wǎng)絡(luò)計算和存儲通信,并提供多達32條DDR5內(nèi)存插槽、12條PCIe 5.0 x16擴展插槽。
此外,新華三、超聚變等也都是Intel Gaudi在中國的合作伙伴,生態(tài)規(guī)模正藝逐步擴大。
↑↑↑可安裝八顆Gaudi2加速器
↑↑↑雙路四代至強處理器
本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com