久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當(dāng)前的位置: 首頁(yè) > 新聞 > 手機(jī)

手機(jī)跑大模型提速4-5倍!微軟亞研院開(kāi)源新技術(shù) 有CPU就行

來(lái)源:量子位   編輯:非小米 時(shí)間:2024-08-09 15:30人閱讀

有CPU就能跑大模型,性能甚至超過(guò)NPU/GPU!

沒(méi)錯(cuò),為了優(yōu)化模型端側(cè)部署,微軟亞洲研究院提出了一種新技術(shù)——T-MAC。

這項(xiàng)技術(shù)主打性價(jià)比,不僅能讓端側(cè)模型跑得更快,而且資源消耗量更少。

手機(jī)跑大模型提速4-5倍!微軟亞研院開(kāi)源新技術(shù) 有CPU就行

咋做到的??

在CPU上高效部署低比特大語(yǔ)言模型

一般來(lái)說(shuō),要想在手機(jī)、PC、樹(shù)莓派等端側(cè)設(shè)備上使用大語(yǔ)言模型,我們需要解決存儲(chǔ)和計(jì)算問(wèn)題。

常見(jiàn)的方法是模型量化,即將模型的參數(shù)量化到較低的比特?cái)?shù),比如4比特、3比特甚至更低,這樣模型所需的存儲(chǔ)空間和計(jì)算資源就會(huì)減少。

不過(guò)這也意味著,在執(zhí)行推理時(shí),需要進(jìn)行混合精度的矩陣乘法運(yùn)算(mpGEMM),即用低精度的權(quán)重和高精度的激活向量進(jìn)行計(jì)算。

然而,現(xiàn)有的系統(tǒng)和硬件并不原生支持這種混合精度的矩陣乘法,因此它們通常需要將低精度的權(quán)重轉(zhuǎn)換回高精度,這個(gè)過(guò)程叫做反量化(dequantization)。

但這種方法不僅效率低,而且當(dāng)比特?cái)?shù)進(jìn)一步降低時(shí),并不能帶來(lái)性能上的提升。

對(duì)此,新技術(shù)T-MAC采用基于查找表(LUT)的計(jì)算范式,無(wú)需反量化,直接支持混合精度矩陣乘。

這樣,T-MAC不僅提高了推理性能,還使得模型更加統(tǒng)一和可擴(kuò)展,尤其適合在資源受限的端側(cè)設(shè)備部署。

此外,T-MAC不依賴于專(zhuān)用的硬件加速器NPU或GPU,能夠僅利用CPU部署模型。甚至在某些情況下,它的推理速度可以超過(guò)專(zhuān)用加速器。

手機(jī)跑大模型提速4-5倍!微軟亞研院開(kāi)源新技術(shù) 有CPU就行

T-MAC的關(guān)鍵創(chuàng)新在于采用基于查找表(LUT)的計(jì)算范式,而非傳統(tǒng)的乘累加(MAC)計(jì)算范式。

T-MAC利用查找表直接支持低比特計(jì)算,從而消除了其他系統(tǒng)中必須的反量化操作,并且顯著減少了乘法和加法操作的數(shù)量。

經(jīng)過(guò)實(shí)驗(yàn),T-MAC展現(xiàn)出了卓越的性能:

在配備了最新高通Snapdragon X Elite芯片組的Surface AI PC 上,3B BitNet-b1.58模型的生成速率可達(dá)每秒48個(gè)token,2bit 7B llama模型的生成速率可達(dá)每秒30個(gè)token,4bit 7B llama模型的生成速率可達(dá)每秒20個(gè)token。

這甚至超越了NPU的性能!

當(dāng)部署llama-2-7B-4bit模型時(shí),盡管使用NPU可以生成每秒10.4個(gè)token,但CPU在T-MAC的助力下,僅使用兩核便能達(dá)到每秒12.6個(gè)token,最高甚至可以飆升至每秒22個(gè)token。

手機(jī)跑大模型提速4-5倍!微軟亞研院開(kāi)源新技術(shù) 有CPU就行

這些都遠(yuǎn)超人類(lèi)的平均閱讀速度,相比于原始的llama.cpp框架提升了4~5倍。

手機(jī)跑大模型提速4-5倍!微軟亞研院開(kāi)源新技術(shù) 有CPU就行
△BitNet on T-MAC (基于LUT) vs llama.cpp (基于反量化)

即使在較低端的設(shè)備如Raspberry Pi 5上,T-MAC針對(duì)3B BitNet-b1.58也能達(dá)到每秒11個(gè)token的生成速率。

同時(shí),T-MAC也具有顯著的功耗優(yōu)勢(shì):

達(dá)到相同的生成速率,T-MAC所需的核心數(shù)僅為原始llama.cpp的1/4至1/6,降低能耗的同時(shí)也為其它應(yīng)用留下計(jì)算資源。

值得注意的是,T-MAC的計(jì)算性能會(huì)隨著比特?cái)?shù)的降低而線性提高,這一現(xiàn)象在基于反量化去實(shí)現(xiàn)的GPU和NPU中是難以觀察到的。

這進(jìn)一步使得T-MAC能夠在2比特下實(shí)現(xiàn)單核每秒10個(gè)token,四核每秒28個(gè)token,大大超越了NPU的性能。

采用新的計(jì)算范式

好了,說(shuō)完了效果,咱們接著展開(kāi)T-MAC的技術(shù)細(xì)節(jié)。

矩陣乘不需乘,只需查表 (LUT)

對(duì)于低比特參數(shù) (weights),T-MAC將每一個(gè)比特單獨(dú)進(jìn)行分組(例如,一組4個(gè)比特),這些比特與激活向量相乘,預(yù)先計(jì)算所有可能的部分和,然后使用LUT進(jìn)行存儲(chǔ)。

之后,T-MAC采用移位和累加操作來(lái)支持從1到4的可擴(kuò)展位數(shù)。

通過(guò)這種方法,T-MAC拋棄了CPU上效率不高的FMA(乘加)指令,轉(zhuǎn)而使用功耗更低、效率也更高的TBL/PSHUF(查表)指令。

手機(jī)跑大模型提速4-5倍!微軟亞研院開(kāi)源新技術(shù) 有CPU就行
△混合精度GEMV基于現(xiàn)有反量化的實(shí)現(xiàn)范式 vs T-MAC基于查找表的新范式以比特為核心的計(jì)算,取代以數(shù)據(jù)類(lèi)型為核心的計(jì)算

傳統(tǒng)的基于反量化的計(jì)算,實(shí)際上是以數(shù)據(jù)類(lèi)型為核心的計(jì)算,這種方式需要對(duì)每一種不同的數(shù)據(jù)類(lèi)型單獨(dú)定制。

每種激活和權(quán)重的位寬組合,如W4A16(權(quán)重int4激活float16) 和W2A8,都需要特定的權(quán)重布局和計(jì)算內(nèi)核。

例如,W3的布局需要將2位和另外1位分開(kāi)打包,并利用不同的交錯(cuò)或混洗方法進(jìn)行內(nèi)存對(duì)齊或快速解碼。

然后,相應(yīng)的計(jì)算內(nèi)核需要將這種特定布局解包到硬件支持的數(shù)據(jù)類(lèi)型進(jìn)行執(zhí)行。

而T-MAC通過(guò)從比特的視角觀察低比特矩陣乘計(jì)算,只需為單獨(dú)的一個(gè)比特設(shè)計(jì)最優(yōu)的數(shù)據(jù)結(jié)構(gòu),然后通過(guò)堆疊的方式擴(kuò)展到更高的2/3/4比特。

同時(shí),對(duì)于不同精度的激活向量(float16/float32/int8),僅有構(gòu)建表的過(guò)程需要發(fā)生變化,在查表的時(shí)候不再需要考慮不同的數(shù)據(jù)結(jié)構(gòu)。

手機(jī)跑大模型提速4-5倍!微軟亞研院開(kāi)源新技術(shù) 有CPU就行
△以比特為核心的查表計(jì)算混合精度GEMV

同時(shí),傳統(tǒng)基于反量化的方法,從4-比特降低到3/2/1-比特時(shí),盡管內(nèi)存占用更少,但是計(jì)算量并未減小,而且由于反量化的開(kāi)銷(xiāo)不減反增,性能反而可能會(huì)更差。

但T-MAC的計(jì)算量隨著比特?cái)?shù)降低能夠線性減少,從而在更低比特帶來(lái)更好加速,為最新的工作BitNet, EfficientQAT等發(fā)布的2-比特模型提供了高效率的部署方案。

比如下圖展示了:

(1)使用不同端側(cè)設(shè)備CPU的單核,T-MAC在4到1比特的混合精度GEMV算子相較llama.cpp加速3-11倍。

(2)T-MAC的GEMM耗時(shí)能隨著比特?cái)?shù)減少線性減少,而基于反量化的llama.cpp無(wú)法做到(1比特llama.cpp的算子性能由其2比特實(shí)現(xiàn)推算得到)。

手機(jī)跑大模型提速4-5倍!微軟亞研院開(kāi)源新技術(shù) 有CPU就行

高度優(yōu)化的算子實(shí)現(xiàn)

概括而言,基于比特為核心的計(jì)算具有許多優(yōu)勢(shì),但將其實(shí)現(xiàn)在CPU上仍具有不小的挑戰(zhàn):

與激活和權(quán)重的連續(xù)數(shù)據(jù)訪問(wèn)相比,表的訪問(wèn)是隨機(jī)的。

表在快速片上內(nèi)存中的駐留對(duì)于最終的推理性能尤為重要,然而,片上內(nèi)存是有限的,查找表(LUT)方法相比傳統(tǒng)的mpGEMV增大了片上內(nèi)存的使用。

這是因?yàn)椴檎冶硇枰4婕せ钕蛄颗c所有可能的位模式相乘的結(jié)果,這比激活本身要多得多。

手機(jī)跑大模型提速4-5倍!微軟亞研院開(kāi)源新技術(shù) 有CPU就行

△T-MAC與llama.cpp在計(jì)算數(shù)據(jù)流上的不同

為此,微軟亞洲研究院的研究員們深入探究了基于查表的計(jì)算數(shù)據(jù)流,為這種計(jì)算范式設(shè)計(jì)了高效的數(shù)據(jù)結(jié)構(gòu)和計(jì)算流程,其中包括:

1、將LUT存入片上內(nèi)存,以利用CPU上的查表向量指令 (TBL/PSHUF) 提升隨機(jī)訪存性能。

2、改變矩陣axis計(jì)算順序,以盡可能提升放入片上內(nèi)存的有限LUT的數(shù)據(jù)重用率。

3、為查表單獨(dú)設(shè)計(jì)最優(yōu)矩陣分塊 (Tiling) 方式,結(jié)合autotvm搜索最優(yōu)分塊參數(shù)

4、參數(shù)weights的布局優(yōu)化:

 a、weights重排,以盡可能連續(xù)訪問(wèn)并提升緩存命中率

   b、weights交錯(cuò),以提升解碼效率

5、對(duì)Intel/ARM CPU做針對(duì)性優(yōu)化,包括

   a、寄存器重排以快速建立查找表

   b、通過(guò)取平均數(shù)指令做快速8-比特累加

研究員們?cè)谝粋€(gè)基礎(chǔ)實(shí)現(xiàn)上,一步步應(yīng)用各種優(yōu)化,最終相對(duì)于SOTA低比特算子獲得顯著加速。

例如,在實(shí)現(xiàn)各種優(yōu)化后,T-MAC 4-比特算子最終相對(duì)于llama.cpp獲得顯著加速:

手機(jī)跑大模型提速4-5倍!微軟亞研院開(kāi)源新技術(shù) 有CPU就行

最后,T-MAC現(xiàn)已開(kāi)源,相關(guān)論文已在arXiv公開(kāi),感興趣可以進(jìn)一步了解。

開(kāi)源地址(含代碼):https://github.com/microsoft/T-MAC

論文:https://www.arxiv.org/pdf/2407.00088

本站所有文章、數(shù)據(jù)、圖片均來(lái)自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請(qǐng)來(lái)信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 智能手機(jī) 安卓

相關(guān)文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
蜜桃视频一区| 另类亚洲自拍| 一区二区三区精品国产| 欧美精品国产一区| 日韩午夜黄色| 亚洲午夜电影网| 国产一区二区三区直播精品电影 | 欧美日韩亚洲精品内裤| 一区二区三区欧美成人| 亚洲视频在线免费观看| 国产视频综合在线| 欧美激情一二区| 欧美日韩在线观看一区二区三区 | 久久综合狠狠| 欧美交受高潮1| 久久国产精品免费一区| 模特精品在线| 午夜在线a亚洲v天堂网2018| 久久国产精品久久久久久| 亚洲精品一区在线观看| 亚洲一区二区三区激情| 在线欧美不卡| 亚洲一区二区三| 亚洲人成艺术| 性欧美videos另类喷潮| 日韩网站在线观看| 久久久高清一区二区三区| 一区二区三区视频免费在线观看| 欧美一区二区高清| 中文在线不卡视频| 久久久久青草大香线综合精品| 中文欧美在线视频| 久久三级视频| 久久国产精品久久w女人spa| 欧美激情一区二区三区成人| 久久漫画官网| 国产精品免费视频观看| 亚洲高清资源综合久久精品| 国产精品专区一| 日韩视频在线观看国产| 精品动漫3d一区二区三区免费| 一本色道久久综合亚洲精品小说| 亚洲国产精品va在线观看黑人 | 最新亚洲激情| 亚洲国产精品视频| 久久久久久久久蜜桃| 欧美一级片一区| 欧美午夜精品久久久久久超碰| 亚洲电影在线播放| 亚洲国产精品一区二区第一页| 欧美一区二区三区四区在线观看地址 | 亚洲午夜激情在线| 亚洲一区bb| 欧美日韩大片一区二区三区| 欧美激情久久久| 亚洲第一精品久久忘忧草社区| 亚洲欧美日本日韩| 香蕉乱码成人久久天堂爱免费| 欧美视频不卡中文| 中文国产成人精品| 亚洲综合精品一区二区| 午夜精品www| 欧美与欧洲交xxxx免费观看 | 久久九九全国免费精品观看| 久久精品国产成人| 国产无一区二区| 欧美一级专区免费大片| 久久久噜噜噜久久人人看| 国产一区二区黄色| 久久久精品日韩欧美| 蜜桃av一区二区三区| 在线免费观看日本欧美| 欧美+日本+国产+在线a∨观看| 欧美黄网免费在线观看| 日韩香蕉视频| 国产精品vip| 欧美一区二区免费| 免费久久99精品国产自在现线| 亚洲第一黄网| 欧美日韩国产在线一区| 中文日韩在线视频| 久久国产精品一区二区三区四区| 国产一区三区三区| 老司机午夜精品视频| 亚洲欧洲一区| 亚洲欧美成人网| 狠狠色狠狠色综合日日五| 免费看亚洲片| 亚洲天堂偷拍| 免费欧美电影| 亚洲一级片在线看| 国产日韩成人精品| 美女图片一区二区| 亚洲少妇自拍| 欧美国产日韩一区| 亚洲综合视频一区| 亚洲第一福利视频| 国产精品嫩草99av在线| 久久综合国产精品台湾中文娱乐网| 91久久国产综合久久蜜月精品| 亚洲专区一区| 在线观看av一区| 国产精品免费看片| 欧美高清在线精品一区| 午夜日韩激情| 艳女tv在线观看国产一区| 久久亚洲视频| 欧美一区二区视频在线观看| 亚洲黄色毛片| 国产日韩欧美不卡在线| 欧美精品国产精品日韩精品| 欧美一区二区三区视频| 一区二区三区精品视频在线观看| 欧美成年人视频网站欧美| 午夜一区二区三区在线观看| 最新日韩在线| 国产在线精品自拍| 欧美亚洲不卡| 欧美日韩国产高清| 美女国内精品自产拍在线播放| 午夜精品在线看| 一区电影在线观看| 亚洲三级色网| 亚洲国产日韩欧美一区二区三区| 久久久欧美精品| 久久精品一区二区| 欧美亚洲免费在线| 亚洲综合色噜噜狠狠| 亚洲三级影院| 亚洲经典自拍| 亚洲激情亚洲| 亚洲国产高清在线观看视频| 一区二区在线观看视频| 国产一区二区三区在线观看网站| 国产欧美精品一区二区三区介绍| 欧美性生交xxxxx久久久| 亚洲综合999| 亚洲一级高清| 亚洲欧美日韩国产中文| 亚洲一区图片| 欧美中文在线观看国产| 欧美一区二区性| 久久久久久**毛片大全| 久久婷婷久久| 欧美成人69| 欧美日韩成人在线| 国产精品久99| 国产嫩草一区二区三区在线观看| 国产精品久久久91| 国产欧美日韩高清| 国产一区二区毛片| 在线精品福利| 亚洲免费观看高清完整版在线观看| 亚洲精品久久久久久下一站| 中文在线资源观看视频网站免费不卡| 亚洲午夜激情免费视频| 香蕉视频成人在线观看| 久久综合九色| 亚洲黑丝一区二区| 一区二区免费在线观看| 亚洲欧美日韩国产另类专区| 久久蜜桃精品| 欧美日韩精品一区视频| 国产九九精品视频| 亚洲电影av在线| 亚洲视频电影在线| 欧美一级大片在线观看| 欧美91福利在线观看| 亚洲欧洲在线免费| 午夜精品网站| 欧美高清视频www夜色资源网| 欧美日韩中文字幕精品| 国产在线精品二区| 在线亚洲一区二区| 久久看片网站| 国产精品99久久久久久有的能看| 欧美一区二区三区四区在线观看地址 | 久久亚洲捆绑美女| 欧美三日本三级少妇三99| 一色屋精品视频免费看| 亚洲一区二区三区免费在线观看 | 香港久久久电影| 欧美福利视频在线| 亚洲一区3d动漫同人无遮挡| 久久在线免费观看视频| 国产精品久久久爽爽爽麻豆色哟哟| 国产自产精品| 亚洲欧美三级在线| 亚洲黄色精品| 久久久久久亚洲精品杨幂换脸| 欧美日韩一卡二卡| 亚洲东热激情| 久久aⅴ国产欧美74aaa| 亚洲免费观看在线观看| 久久综合九色99| 国产在线欧美日韩| 久久成人人人人精品欧| 一本色道久久88综合亚洲精品ⅰ| 老鸭窝91久久精品色噜噜导演| 国产日韩在线亚洲字幕中文|