久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當前的位置: 首頁 > 新聞 > 其他

GPT-4被破解 訓練成本 模型架構的秘密都被挖出來了?

來源:品玩網   編輯:非小米 時間:2023-07-12 09:33人閱讀

幾個小時前SemiAnalysis的DYLAN PATEL和DYLAN PATEL發布了一個關于GPT-4的技術信息,包括GPT-4的架構、參數數量、訓練成本、訓練數據集等。本篇涉及的GPT-4數據是由他們收集,并未公開數據源。僅供參考。

原文翻譯如下:

揭秘 GPT-4:導致 OpenAI 架構的工程權衡

OpenAI 保持 GPT-4 架構的封閉性并不是因為對人類存在一些生存風險,而是因為他們構建的東西是可復制的。事實上,我們預計Google、Meta、Anthropic、Inflection、Character、騰訊、字節跳動、百度等在短期內都將擁有與 GPT-4 一樣強大的模型。

不要誤解我們的意思,OpenAI 擁有令人驚嘆的工程技術,他們構建的東西令人難以置信,但他們得出的解決方案并不神奇。這是一個優雅的解決方案,具有許多復雜的權衡。做大只是戰斗的一部分。 OpenAI 最持久的護城河是他們擁有最真實的使用情況、領先的工程人才,并且可以通過未來的模型繼續領先于其他人。

我們從許多來源收集了大量有關 GPT-4 的信息,今天我們想分享一下。這包括模型架構、訓練基礎設施、推理基礎設施、參數計數、訓練數據集組成、令牌計數、層數、并行策略、多模態視覺適應、不同工程權衡背后的思維過程、獨特的實施技術以及它們如何減輕一些問題他們最大的瓶頸與巨型模型的推理有關。

GPT-4 最有趣的方面是理解他們為什么做出某些架構決策。

此外,我們將概述 A100 上 GPT-4 的訓練和推理成本,以及如何在下一代模型架構中與 H100 進行擴展。

首先,問題陳述。從 GPT-3 到 4,OpenAI 希望擴展 100 倍,但問題是成本。 密集變壓器模型將無法進一步擴展。密集變壓器是 OpenAI GPT-3、Google PaLM、Meta LLAMA、TII Falcon、MosaicML MPT 等使用的模型架構。我們可以輕松說出 50 家使用相同架構培訓法學碩士的公司。這是一個很好的方法,但它在擴展方面存在缺陷。

從訓練成本的角度來看,請參閱我們在 GPT-4 公告之前關于即將推出的密集模型 AI 磚墻的訓練成本討論。在那里,我們揭示了 OpenAI 在 GPT-4 架構方面所做的高層工作以及各種現有模型的訓練成本。

在過去的 6 個月里,我們意識到培訓成本無關緊要。

當然,從表面上看,花費數千萬甚至數億美元的計算時間來訓練模型似乎很瘋狂,但這對于這些公司來說是微不足道的。它實際上是一個資本支出項目,規模擴大可以持續帶來更好的結果。唯一的限制因素是將計算擴展到人類可以獲得反饋并修改架構的時間尺度。

未來幾年,谷歌、Meta、OpenAI/微軟等多家公司將在價值超過千億元的超級計算機上訓練模型。Meta 每年在“Metaverse”上燃燒超過 160 億美元,Google 每年在各種永遠不會實現成果的項目上浪費 100 億美元。亞馬遜在 Alexa 上損失了超過 50 億美元。加密貨幣在毫無價值的事情上浪費了超過 1000 億美元。

這些公司和整個社會可以而且將會花費超過一千億美元來創建可以訓練單個大規模模型的超級計算機。然后可以通過多種方式將這些大型模型產品化。這項工作將在多個縣和公司重復進行。這是新的太空競賽。以前的浪費與現在的區別在于,人工智能可以在短期內從人類助手和自主代理身上帶來有形的價值。

擴展人工智能(真正的人工智能磚墻)的更重要問題目標是將訓練計算與推理計算分離。這就是為什么訓練 Chinchilla 對于任何將要部署的模型來說都是最佳的。這就是為什么要進行稀疏模型架構;每個參數在推理過程中都不會被激活。

真正的戰斗是將這些模型擴展到用戶和代理的成本太高。推理成本是訓練成本的數倍。這就是OpenAI在模型架構和基礎設施方面的創新目標。

大型模型的推理是一個多變量問題,其中模型大小會導致密集模型的死亡。

我們已經在這里詳細討論了有關邊緣的問題,但數據中心的問題陳述非常相似。簡而言之,設備永遠不可能有足夠的內存帶寬來容納大型語言模型來實現一定水平的吞吐量。即使它們有足夠的帶寬,邊緣硬件計算資源的利用率也會很糟糕。

在數據中心、云中,利用率就是一切。 Nvidia 因其卓越的軟件而受到贊譽的一半原因是,在 GPU 的幾代生命周期中,Nvidia 不斷更新低級軟件,通過在芯片周圍、芯片和內存之間更智能地移動數據來提高 FLOPS 利用率。

目前大多數用例中的 LLM 推理都是作為實時助手運行,這意味著它必須實現足夠高的吞吐量,以便用戶可以實際使用它。人類平均每分鐘閱讀約 250 個單詞,但有些人的閱讀速度高達每分鐘約 1,000 個單詞。這意味著您需要每秒至少輸出 8.33 個令牌,但每秒需要輸出 33.33 個令牌才能覆蓋所有極端情況。

由于內存帶寬要求,即使在最新的 Nvidia H100 GPU 服務器上,萬億參數密集模型在數學上也無法實現此吞吐量。每個生成的令牌都需要將每個參數從內存加載到芯片上。然后,將生成的令牌輸入到提示中,并生成下一個令牌。此外,注意力機制的 KV 緩存中的流傳輸需要額外的帶寬。

GPT-4被破解 訓練成本 模型架構的秘密都被挖出來了?

上圖展示了以足夠高的吞吐量推理 LLM 以便為單個用戶提供服務所需的內存帶寬。它表明,即使 8x H100 也無法以每秒 33.33 個令牌的速度提供 1 萬億參數密集模型。此外,每秒 20 個令牌的 8xH100 的 FLOPS 利用率仍低于 5%,導致推理成本非常高。實際上,目前的 8 路張量并行 H100 系統存在約 3000 億個前饋參數的推理約束。

然而,OpenAI 正在通過 A100 實現人類的閱讀速度,其模型超過 1 萬億個參數,并且以每 1,000 個代幣僅 0.06 美元的低價廣泛提供。那是因為它是稀疏的,IE 并不是每個參數都被使用。

廢話夠多了,我們來談談 GPT-4 模型架構、訓練基礎設施、推理基礎設施、參數計數、訓練數據集組成、標記計數、層數、并行策略、多模態視覺編碼器、不同工程權衡背后的思維過程、獨特的實施的技術,以及它們如何緩解與大型模型推理相關的一些最大瓶頸。

總結主要的關于GPT-4的信息(總結來自Yam Peleg的推文):

參數數量:GPT-4比GPT-3大10倍,估計參數數量在120層、1.8萬億左右。

MoE架構:即Mixture-of-Experts架構,這部分信息已經確認,OpenAI通過利用MoE架構保持一定的成本,包含16個Experts,每一個都是一個MLP.2,約1110億參數,每個前向傳播都被路由到這些專家中

MoE路由:盡管公開的技術文檔中說了很多高級的路由功能,包括每個token如何選擇每個專家等。但是現有GPT-4其實非常簡單,大約就是為每個attention共享550億參數的方式。

推理:每一個前向傳播的推理(生成一個token)需要2800億參數以及560 TFLOPS,這與純dense模型每次正向傳遞所需的約1.8萬億參數和3700 TFLOPS形成了鮮明對比。

訓練數據集:GPT-4在約13萬億tokens上訓練。這不是指不同的token數量,是根據epochs計算使用的token數量。基于文本的數據集做了2次epoch訓練,基于代碼的數據集做了4次epoch訓練。

GPT-4 32K:每一個預訓練階段都是8K的長度。32K的版本是8K預訓練模型之后微調得到的。

Batch Size:batch size是逐漸上升的,在集群中經過幾天的時間達到一個數值。最終,OpenAI的Batch Size達到了6000萬!也就是每個專家大約有750萬的token數量,但是并不是每個專家都能看到所有的tokens。

并行策略:由于NVLink的限制,OpenAI訓練GPT-4做了8路tensor并行,15路的pipeline并行。

訓練成本:OpenAI訓練GPT-4的FLOPS約2.15e25,在2.5萬個A100上訓練了90-100天左右時間(MFU約32%到36%),如果是一個A100約1美元,那么訓練成本約6300萬美元(如果現在使用H100可能只要2150萬美元)。

MoE的取舍:使用MoE之后做了很多取舍,包括推理的處理困難,因為每個模型都用來生成文本。這意味著生成的時候有的可以使用,有的空閑,對使用率來說非常浪費。研究顯示64-128個專家的損失比16個專家更好。

GPT-4的推理成本:比1750億的Davinchi(GPT-3/3.5系列)高3倍,主要是GPT-4的集群太大,利用率低一點。估計約1k tokens要0.0049美元(128個A100)。

MOA:Multi Query Attention,和其他人一樣,都是正常使用MOA。因為只需要1個head,顯存大大下降,但是32K依然無法在A100 40G運行。

持續batching:OpenAI使用可變的batch size和持續batching方法??梢云胶馔评沓杀竞屯评硭俣?。

Vision Multi-Modal:GPT-4的多模態部分是單獨一個visiion encoder,帶有cross attention。使得1.8萬億的GPT-4的參數擴展到2萬億左右。VisionModel是從頭訓練的,還不夠成熟。Vision部分的一個作用是讓代理可以月度網頁,然后轉換成圖片和視頻。部分數據是基于Latex與屏幕截屏訓練的。還有YouTube視頻,包括使用whisper翻譯的腳本與抽幀結果。

推理架構:推理是在128個GPU集群上運行的,在不同的區域有不同的集群。每個節點有8個GPU,包含1300億參數的模型。或者說每個GPU少于30GB的FP16、少于15GB的FP8/int8。

GPT-4被破解 訓練成本 模型架構的秘密都被挖出來了?

本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

標簽: 大模型 ChatGPT

相關文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
亚洲毛片视频| 久久中文字幕导航| 欧美精品在线一区| 99国产精品久久久久久久久久| 亚洲电影免费观看高清完整版在线| 亚洲网站视频| 国产欧美高清| 久久性色av| 欧美77777| 一区二区三区欧美视频| 亚洲女人小视频在线观看| 国产欧美一区二区色老头| 久久婷婷麻豆| 欧美精品一区二区精品网 | 亚洲新中文字幕| 国产精品网站视频| 久久在线免费观看视频| 欧美va天堂| 午夜精品一区二区三区在线| 香蕉久久一区二区不卡无毒影院 | 亚洲国产成人tv| 亚洲精品乱码久久久久久按摩观| 欧美日韩综合视频| 久久亚洲精品视频| 欧美日韩专区在线| 美女黄色成人网| 欧美日韩精品久久久| 久久精精品视频| 欧美精品首页| 老妇喷水一区二区三区| 欧美精品在线一区| 毛片基地黄久久久久久天堂| 欧美日韩黄视频| 噜噜噜躁狠狠躁狠狠精品视频| 欧美日韩高清在线| 久久综合色天天久久综合图片| 欧美日韩久久不卡| 久久综合999| 国产精品区一区二区三区| 欧美成人精品在线播放| 国产精品久久国产精品99gif| 欧美成人黑人xx视频免费观看| 国产精品久久影院| 亚洲人成网站在线观看播放| 国产一区二区在线观看免费播放| 日韩午夜精品视频| 亚洲福利在线观看| 欧美一区视频| 欧美一区二区三区免费在线看| 欧美日韩激情网| 亚洲人成网站999久久久综合| 亚洲第一黄网| 久久久999精品| 久久精品首页| 国产免费成人| 亚洲一区二区在线播放| 亚洲午夜激情网页| 欧美日韩成人在线观看| 欧美日产一区二区三区在线观看| 久久久久久久国产| 欧美高清在线视频| 欧美波霸影院| 在线不卡免费欧美| 久久久久久9999| 免费成人在线观看视频| 狠狠入ady亚洲精品| 欧美中文字幕视频| 久久久久久9| 激情成人中文字幕| 久久精品国产精品亚洲| 麻豆9191精品国产| 在线不卡视频| 欧美国产日韩一区二区三区| 亚洲激情成人| 一本色道久久88亚洲综合88| 欧美日韩1区2区| 一区二区三区免费网站| 亚洲综合另类| 国产精品一级在线| 欧美一区二区三区免费看| 久久亚洲一区| 91久久精品国产91性色tv| 欧美激情成人在线视频| 亚洲国产三级在线| 亚洲在线一区二区| 国产精品资源| 久久在线视频在线| 亚洲激情偷拍| 午夜免费在线观看精品视频| 国产亚洲欧美一区在线观看| 久久久综合免费视频| 亚洲国产精选| 香蕉亚洲视频| 亚洲国产91| 欧美视频在线观看一区二区| 亚洲欧美日本国产有色| 欧美成人首页| 亚洲欧美国产另类| 激情亚洲成人| 欧美午夜www高清视频| 欧美一二三区在线观看| 亚洲福利视频网站| 午夜精品在线观看| 亚洲激情亚洲| 国产精品专区一| 欧美精品系列| 久久亚洲国产精品日日av夜夜| 亚洲精品国产拍免费91在线| 欧美一区二区在线看| 亚洲精品一区二区三区av| 国产精品久久久久久户外露出| 久久久一区二区三区| 亚洲午夜精品视频| 亚洲国产三级网| 久久麻豆一区二区| 亚洲你懂的在线视频| 亚洲国产精品va在线观看黑人| 国产精品欧美日韩久久| 欧美韩日一区二区三区| 欧美在线视频一区二区| 99精品国产99久久久久久福利| 另类天堂视频在线观看| 久久精品人人| 亚洲欧美在线一区| 一区二区三区www| 在线日韩中文字幕| 国产日产精品一区二区三区四区的观看方式 | 国产女人精品视频| 欧美日韩另类字幕中文| 久久精品91| 亚洲一区二区四区| 99国产精品私拍| 亚洲国产一区二区三区a毛片| 久久米奇亚洲| 久久精品五月| 久久久久久九九九九| 欧美亚洲三区| 欧美一区二区视频观看视频| 亚洲一区二区伦理| 亚洲一区二区三区高清| 一区二区日韩欧美| 一本色道久久综合亚洲精品不 | 欧美日韩三级| 欧美日本在线看| 欧美精品久久久久久久| 欧美成人日韩| 欧美激情亚洲激情| 欧美金8天国| 欧美日韩在线观看视频| 欧美日韩网址| 国产精品久久国产愉拍| 国产精品一区二区女厕厕| 国产精品国产三级国产aⅴ9色| 欧美丝袜一区二区三区| 国产精品乱码久久久久久| 国产精品久久久久久久久久免费| 国产精品嫩草影院av蜜臀| 国产精品一区2区| 激情亚洲成人| 亚洲乱码国产乱码精品精天堂| 日韩网站免费观看| 中文国产成人精品久久一| 亚洲欧美日本国产专区一区| 欧美在线视频一区| 老鸭窝91久久精品色噜噜导演| 欧美国产日韩精品免费观看| 亚洲人成网站777色婷婷| 在线综合亚洲| 久久久久久91香蕉国产| 欧美国产成人精品| 国产精品国产自产拍高清av王其 | 在线观看中文字幕不卡| 亚洲免费av观看| 性感少妇一区| 欧美国产日韩一区| aa级大片欧美三级| 欧美专区在线观看| 欧美精品日韩一本| 国产一区二区剧情av在线| 亚洲国产欧美日韩| 亚洲欧美成人一区二区三区| 另类尿喷潮videofree | 麻豆精品在线视频| 一本色道久久综合狠狠躁的推荐| 欧美在线三区| 欧美视频手机在线| 黄色成人精品网站| 亚洲性线免费观看视频成熟| 久久伊伊香蕉| 一区二区三区视频在线观看| 久久婷婷av| 国产精品日本| 亚洲伦理网站| 蜜臀av在线播放一区二区三区| 日韩午夜三级在线| 米奇777超碰欧美日韩亚洲| 国产精品视频网站| 一区二区三区欧美亚洲| 欧美 日韩 国产一区二区在线视频| 亚洲视频中文字幕|