百度這波贏麻了！文心大模型3.5扒掉了所有國產AI大模型的“底褲”

來源：快科技編輯：非小米時間：2023-07-21 20:15人閱讀

#大模型 #李彥宏 #百度

最近，“百模大戰”迎來了第一次專業會考，可以看作是各個大模型實力檢驗的“期中考試”。

權威IT市場研究和咨詢公司IDC日前發布了首個大模型評估報告——《AI大模型技術能力評估報告，2023》，對國內主流AI大模型進行了一次專業且系統地評估。

雖然結果公布之前心里多少有個大概，但真正看到統一維度和評定標準下，各個大模型的差距直觀展示到面前的時候，多多少少還是有些震撼。

IDC《AI大模型技術能力評估報告，2023》：百度7項滿分、綜合評分第一

這份報告顯示，百度文心大模型3.5拿下12項指標的7個滿分，綜合評分第一，算法模型第一，行業覆蓋第一！

這三個絕對第一，把百度文心大模型的基礎技術深度和產業應用覆蓋廣度，展現的淋漓盡致。

要知道，在全球大廠當中，百度首個發布了對標ChatGPT的大模型產品文心一言。算是起步最早，也是第一個敢于對國外大模型發起挑戰的國產大模型。

所以，那句話怎么說來著，你大爺終究還是你大爺。

“百模大戰”第一次會考：文心大模型3.5拿下7個滿分、3個絕對第一

IDC在業界的“江湖地位”相信不用跟大家過多介紹了，從1964年至今，IDC在全球110多個國家跟蹤技術趨勢，也是也是最早進入中國市場的科技市場研究機構之一。

過去10年，IDC的研究報告被超100個IPO申請引用。其研究服務覆蓋三大領域四大類別，在金融、能源、醫療、制造、零售、政府和通信服務等行業的研究引領全球。

在此之前，盡管各種第三方測試報告眾多，但市面上一直缺少統一的大模型評估標準。大多數企業依舊在拼參數量級，通過更大的參數量來提升模型的準確度。

但“無腦”堆參數量級，到了一定程度之后，就會出現數據多少和模型的性能收益出現邊際效應遞減的現象，投入和產出不成正比了。隨著大模型的越來越多，業界迫切需要一套科學的大模型評估標準。

IDC選擇在這個時候發布第一個大模型評估報告，自然意義重大，而且極具參考價值，給大模型發展指明了道路，也為用戶選擇廠商提供幫助和建議。

我們來看看IDC是怎么評估大模型的。

首先，IDC將大模型分為三層，即服務生態、產品技術以及行業應用。

同時，對每一層的能力進行測評，主要考察指標為：算法模型、通用能力、創新能力、平臺能力、安全可解釋、大模型的應用行業以及配套服務和大模型生態等10余個指標（具體包括36項細顆粒度的評估標準），每個指標有1分-5分五個層級，得分越高代表廠商大模型技術能力越強，最終評估結果通過雷達圖展示。

其次，在大模型的選擇上，IDC選取了中國市場9家大模型技術廠商進行重點研究，分別為阿里巴巴、百度、第四范式、科大訊飛、瀾舟科技、云從科技、智譜AI、中國電信智科以及中科聞歌。

除此之外，IDC還觀察到了360、MiniMax、華為、商湯科技、騰訊等大模型。IDC也表示，會持續更新測評，涵蓋更多技術廠商。

IDC《AI大模型技術能力評估報告，2023》：百度獲算法模型、行業覆蓋唯一滿分

根據評估報告，百度文心大模型獲得了7項核心指標滿分（5分）：算法模型、通用能力、創新能力、平臺能力、生態合作、行業覆蓋、能源行業；

3項國內唯一滿分（5分）：算法模型、行業覆蓋、能源行業；

5項指標4分：安全可解釋、服務能力、金融行業、工業行業、醫療行業。

在大模型的評定標準中，“算法模型”和“行業覆蓋”是衡量大模型能力極其重要的兩個指標。其中，“算法模型”是大模型能力最為核心的要素，“行業覆蓋”體現了大模型在產業落地上的實力。這兩個指標，百度文心大模型在眾多廠商中均獲得唯一滿分，核心技術上明顯領先其它競品。

文心大模型取得這一成績，有驚喜，但也在預料之中。早在4年前，大模型還沒被廣泛關注的時候，百度就推出了文心大模型1.0。然后持續演進到2.0、3.0版本。如今，文心大模型已經迭代到3.5版本，實現了基礎模型升級、精調技術創新、知識點增強、邏輯推理增強等，新版本在效果、功能、性能全面提升。與3月份的3.0版本相比，訓練速度提升了2倍，推理速度提升了17倍，模型效果累計提升超過50%。

多個公開測評顯示，文心大模型3.5版支持下的文心一言中文能力突出，甚至有超出GPT-4 的表現；綜合能力在評測中超過ChatGPT，遙遙領先于其他大模型。

在評估報告中，IDC對百度文心大模型也不乏溢美之詞。

IDC在報告中指出，百度AI大模型整體競爭力位于領先水平，在模型能力、工具平臺、生態布局以及行業覆蓋上優勢明顯，并已提前進入商業化落地探索階段。

IDC認為，百度文心大模型源于產業實踐，服務于產業實踐。在近年的大模型技術探索與產業實踐中，百度文心形成了支撐大模型產業落地的關鍵路徑，構建文心大模型層、工具平臺層，以及以基于文心大模型構建的系列產品與社區。

另外，IDC很看重百度的一點——百度文心大模型不只是一個模型或者一個產品。文心大模型包含數 30 多個大模型，涵蓋基礎大模型、任務大模型、行業大模型的三級體系，可以全面滿足產業應用需求。

不僅如此，作為推進大模型在行業深度應用的關鍵舉措，百度文心聯合國網、浦發、泰康、吉利、哈爾濱市、深圳燃氣、TCL、上海辭書出版社等企業單位，合作發布了涵蓋電力、燃氣、金融、航天、傳媒、城市、影視、制造、社科等11個行業大模型，加速推動行業的智能化轉型升級。

文心大模型為什么這么強？三大核心優勢別人學不來

“當別人剛剛開始思考如何進行訓練的時候，我們已經在推理上沖出了很遠。”李彥宏曾經說過，算力可以買來，創新能力是買不來的。

在筆者看來，文心大模型今天“遙遙領先”的背后，除了長期技術積累、行業先發帶來的領先之外，核心還在于百度“芯片-框架-模型-應用”四層技術棧優勢、知識增強的核心特色以及繁榮的大模型生態三大優勢。

大家都知道，過去，無論是PC還是移動時代， IT技術棧都是三層，芯片層、操作系統層、應用層。但到了人工智能時代，IT技術棧變成了四層，即：芯片層、框架層（深度學習框架）、模型層（比如文心大模型、信息分發大模型、交通大模型、能源大模型等）、應用層。

百度投入人工智能已經超過10年，在芯片、框架、模型、應用四層有全棧布局，在關鍵核心技術攻堅上，是全球為數不多的全棧布局的人工智能公司，在四層架構都有自主研發的領先產品和技術，因此可以進行端到端的優化，迅速提升大模型訓練和推理的效率。同時，文心大模型是完全自主可控的，做到了數據可控、框架可控、模型可控。

比如，在框架層，百度擁有自研的深度學習平臺飛槳，有力支撐了大模型的高效訓練和推理。

飛槳與文心的協同優化，讓文心大模型3.5最新版本的模型效果提升50%，訓練速度提升2倍，推理速度提升30倍。

而在芯片層，百度自研的昆侖芯，已實現兩代通用AI芯片產品的量產及落地應用。昆侖芯 1 代 AI 芯片于 2020 年量產，在百度搜索引擎、小度等業務中部署數萬片，是國內唯一一款經歷過互聯網大規模核心算法考驗的云端 AI 芯片，同時也被廣泛部署在互聯網、工業制造、智慧金融、智慧交通等領域。

搭載新一代架構 XPU-R 的昆侖芯 2 代 AI 芯片于 2021 年 6 月回片并當天點亮，8 月量產發布。昆侖芯 2 代 AI 芯片是國內首款采用 GDDR6 顯存的通用 AI 芯片，相比昆侖芯 1 代 AI 芯片性能提升 2-3 倍，且在通用性、易用性方面也有顯著增強。昆侖芯 2 代 AI 芯片已經開啟互聯網及各行業客戶交付，當前商業化進展順利。據悉，百度昆侖芯前兩代的產品已有數萬片的部署，第三代會在明年的年初上市。

百度文心大模型全景圖

另外，知識增強作為文心大模型的核心特色之一，實現了更高的效率、更好的效果、更強的可解釋性。在大模型生態方面，百度文心已形成企業、教育、社區三位一體的生態體系。最新數據顯示，百度有超過750萬開發者基礎，20萬企業生態基礎，多層次開展大模型人才培訓、企業賦能、開發者運營。百度還設立了10億創投基金鼓勵大模型創意、繁榮大模型生態。

“百模大戰”終局提前預演：百度已提前勝出下一個是誰？

今年，AI大模型成為行業關鍵詞。一波由ChatGPT帶動的“百模大戰”正愈演愈烈。如今出門開發布會不提AI大模型，都不好意思跟人打招呼。

據媒體不完全統計，在OpenAI發布ChatGPT后，全球已發布數百個大模型，僅今年上半年在中國就發布了80多個大模型產品。到今年下半年，預計國內市面上的大模型將超過百款。

與此同時，我們也能清晰的看到，有的大模型各項能力已經愈發成熟，提前進入商業化落地探索階段。而絕大多數大模型，還在給觀眾看PPT。

百度這波贏麻了！文心大模型3.5扒掉了所有國產AI大模型的“底褲”