揭秘AMD EPYC處理器的獨門絕技:AI推理就問還有誰!
AI生命周期包括最重要的兩個部分,一個是AI訓練,一個是AI推理。
其中,AI訓練就是讓模型識別數(shù)據(jù)模式,是數(shù)據(jù)和處理最密集的部分,需要大規(guī)模的算力。
在這一階段,往往優(yōu)先使用大規(guī)模并行的GPU加速器或?qū)S玫腁I加速器,有時候根據(jù)情況也可以使用超高性能的CPU處理器。
AI推理則是基于訓練好的模型,實時處理輸入的數(shù)據(jù),只需較小的算力,更接近數(shù)據(jù)的實際位置,更強調(diào)持續(xù)運算與低延遲。
因此,這個階段使用常規(guī)的CPU最合適,其性能、能效、兼容性、性價比完美符合AI推理需求。
當然,這對CPU的綜合素質(zhì)也是有著很高的需求的,足夠強大且平衡的性能、能效、成本才能帶來足夠高的效率、效益。
一般來說,GPU訓練,CPU推理,再加上開發(fā)框架和軟件支持,構(gòu)成了最合適的完整AI生命周期。
作為行業(yè)唯一同時擁有高性能GPU、CPU、FPGA平臺性解決方案的AMD,再加上ROCm開發(fā)平臺的不斷成熟,在AI訓練、推理的整個生命周期里都有著得天獨厚的優(yōu)勢,尤其是EPYC CPU簡直做到了無敵寂寞。
如今,AMD EPYC處理器已經(jīng)成為最常被選擇用于AI推理的服務(wù)器平臺,尤其是第四代Genoa EPYC 9004系列,執(zhí)行AI推理的能力又得到了巨大的飛躍。
比如全新的Zen 4架構(gòu),相比上代在每時鐘周期執(zhí)行指令數(shù)上提升了約14%,再加上更高的頻率,性能有了極大的提升。
比如先進的5nm制造工藝,它大大提高了處理器的集成度,結(jié)合新架構(gòu)使得高性能、高能效成為可能。
比如更多的核心與線程數(shù)量,比上代增加了足足一半,最高來到96個,并支持同步多線程,無需多路并行就能執(zhí)行更多推理操作,同時處理上萬個源的數(shù)據(jù)推理需求也不在話下,從而兼具高并發(fā)、低延遲。
比如靈活高效的AVX-512擴展指令集,可高效執(zhí)行大量的矩陣和向量計算,顯著提高卷積和矩陣乘法的速度,尤其是BF16數(shù)據(jù)類型可提高吞吐量,避免INT8數(shù)據(jù)的量化風險,而且還是雙周期的256位流水線設(shè)計,效率和能效都更高。
比如更強大的內(nèi)存與I/O,包括引入DDR5內(nèi)存并支持多達12個通道,以及多達128條PCIe 5.0通道,成為大規(guī)模數(shù)據(jù)傳輸?shù)母咚俟贰?/p>
比如極高的能效,96核心的熱設(shè)計功耗也只需360W,84核心可以控制在290W,從而顯著降低散熱方面的壓力。
還有一貫出色的性價比,可以大大降低TCO(總擁有成本)。
以及不要忘了,AMD EPYC基于x86架構(gòu)指令集,是大家最熟悉的、最熟練的,部署、開發(fā)和應用的難度與成本都遠低于各種特殊架構(gòu)。
對于AI,我們平常關(guān)注更多的是AI訓練,尤其是龐大的算力需求,AI推理則是訓練之后真正落地體驗的階段,重要性同樣不言而喻,同樣需要恰到好處的軟硬件平臺需求。
搭載AMD EPYC的服務(wù)器,就恰好為基于CPU處理器的AI推理工作提供了一個優(yōu)秀的平臺。
96核心、DDR5內(nèi)存和PCIe 5.0擴展、AVX-512指令等實現(xiàn)了性能和能效的雙重提升,而為處理器優(yōu)化的庫、原語則提供強大的保駕護航。
無論任何模型還是場景,AMD EPYC都能提供充足的高性能、高能效、高性價比。
本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。
如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com