百度這波贏麻了!文心大模型3.5扒掉了所有國產AI大模型的“底褲”
最近,“百模大戰”迎來了第一次專業會考,可以看作是各個大模型實力檢驗的“期中考試”。
權威IT市場研究和咨詢公司IDC日前發布了首個大模型評估報告——《AI大模型技術能力評估報告,2023》,對國內主流AI大模型進行了一次專業且系統地評估。
雖然結果公布之前心里多少有個大概,但真正看到統一維度和評定標準下,各個大模型的差距直觀展示到面前的時候,多多少少還是有些震撼。
IDC《AI大模型技術能力評估報告,2023》:百度7項滿分、綜合評分第一
這份報告顯示,百度文心大模型3.5拿下12項指標的7個滿分,綜合評分第一,算法模型第一,行業覆蓋第一!
這三個絕對第一,把百度文心大模型的基礎技術深度和產業應用覆蓋廣度,展現的淋漓盡致。
要知道,在全球大廠當中,百度首個發布了對標ChatGPT的大模型產品文心一言。算是起步最早,也是第一個敢于對國外大模型發起挑戰的國產大模型。
所以,那句話怎么說來著,你大爺終究還是你大爺。
“百模大戰”第一次會考:文心大模型3.5拿下7個滿分、3個絕對第一
IDC在業界的“江湖地位”相信不用跟大家過多介紹了,從1964年至今,IDC在全球110多個國家跟蹤技術趨勢,也是也是最早進入中國市場的科技市場研究機構之一。
過去10年,IDC的研究報告被超100個IPO申請引用。其研究服務覆蓋三大領域四大類別,在金融、能源、醫療、制造、零售、政府和通信服務等行業的研究引領全球。
在此之前,盡管各種第三方測試報告眾多,但市面上一直缺少統一的大模型評估標準。大多數企業依舊在拼參數量級,通過更大的參數量來提升模型的準確度。
但“無腦”堆參數量級,到了一定程度之后,就會出現數據多少和模型的性能收益出現邊際效應遞減的現象,投入和產出不成正比了。隨著大模型的越來越多,業界迫切需要一套科學的大模型評估標準。
IDC選擇在這個時候發布第一個大模型評估報告,自然意義重大,而且極具參考價值,給大模型發展指明了道路,也為用戶選擇廠商提供幫助和建議。
我們來看看IDC是怎么評估大模型的。
首先,IDC將大模型分為三層,即服務生態、產品技術以及行業應用。
同時,對每一層的能力進行測評,主要考察指標為:算法模型、通用能力、創新能力、平臺能力、安全可解釋、大模型的應用行業以及配套服務和大模型生態等10余個指標(具體包括36項細顆粒度的評估標準),每個指標有1分-5分五個層級,得分越高代表廠商大模型技術能力越強,最終評估結果通過雷達圖展示。
其次,在大模型的選擇上,IDC選取了中國市場9家大模型技術廠商進行重點研究,分別為阿里巴巴、百度、第四范式、科大訊飛、瀾舟科技、云從科技、智譜AI、中國電信智科以及中科聞歌。
除此之外,IDC還觀察到了360、MiniMax、華為、商湯科技、騰訊等大模型。IDC也表示,會持續更新測評,涵蓋更多技術廠商。
IDC《AI大模型技術能力評估報告,2023》:百度獲算法模型、行業覆蓋唯一滿分
根據評估報告,百度文心大模型獲得了7項核心指標滿分(5分):算法模型、通用能力、創新能力、平臺能力、生態合作、行業覆蓋、能源行業;
3項國內唯一滿分(5分):算法模型、行業覆蓋、能源行業;
5項指標4分:安全可解釋、服務能力、金融行業、工業行業、醫療行業。
在大模型的評定標準中,“算法模型”和“行業覆蓋”是衡量大模型能力極其重要的兩個指標。其中,“算法模型”是大模型能力最為核心的要素,“行業覆蓋”體現了大模型在產業落地上的實力。這兩個指標,百度文心大模型在眾多廠商中均獲得唯一滿分,核心技術上明顯領先其它競品。
文心大模型取得這一成績,有驚喜,但也在預料之中。早在4年前,大模型還沒被廣泛關注的時候,百度就推出了文心大模型1.0。然后持續演進到2.0、3.0版本。如今,文心大模型已經迭代到3.5版本,實現了基礎模型升級、精調技術創新、知識點增強、邏輯推理增強等,新版本在效果、功能、性能全面提升。與3月份的3.0版本相比,訓練速度提升了2倍,推理速度提升了17倍,模型效果累計提升超過50%。
多個公開測評顯示,文心大模型3.5版支持下的文心一言中文能力突出,甚至有超出GPT-4 的表現;綜合能力在評測中超過ChatGPT,遙遙領先于其他大模型。
在評估報告中,IDC對百度文心大模型也不乏溢美之詞。
IDC在報告中指出,百度AI大模型整體競爭力位于領先水平,在模型能力、工具平臺、生態布局以及行業覆蓋上優勢明顯,并已提前進入商業化落地探索階段。
IDC認為,百度文心大模型源于產業實踐,服務于產業實踐。在近年的大模型技術探索與產業實踐中,百度文心形成了支撐大模型產業落地的關鍵路徑,構建文心大模型層、工具平臺層,以及以基于文心大模型構建的系列產品與社區。
另外,IDC很看重百度的一點——百度文心大模型不只是一個模型或者一個產品。文心大模型包含數 30 多個大模型,涵蓋基礎大模型、任務大模型、行業大模型的三級體系,可以全面滿足產業應用需求。
不僅如此,作為推進大模型在行業深度應用的關鍵舉措,百度文心聯合國網、浦發、泰康、吉利、哈爾濱市、深圳燃氣、TCL、上海辭書出版社等企業單位,合作發布了涵蓋電力、燃氣、金融、航天、傳媒、城市、影視、制造、社科等11個行業大模型,加速推動行業的智能化轉型升級。
文心大模型為什么這么強?三大核心優勢 別人學不來
“當別人剛剛開始思考如何進行訓練的時候,我們已經在推理上沖出了很遠。”李彥宏曾經說過,算力可以買來,創新能力是買不來的。
在筆者看來,文心大模型今天“遙遙領先”的背后,除了長期技術積累、行業先發帶來的領先之外,核心還在于百度“芯片-框架-模型-應用”四層技術棧優勢、知識增強的核心特色以及繁榮的大模型生態三大優勢。
大家都知道,過去,無論是PC還是移動時代, IT技術棧都是三層,芯片層、操作系統層、應用層。但到了人工智能時代,IT技術棧變成了四層,即:芯片層、框架層(深度學習框架)、模型層(比如文心大模型、信息分發大模型、交通大模型、能源大模型等)、應用層。
百度投入人工智能已經超過10年,在芯片、框架、模型、應用四層有全棧布局,在關鍵核心技術攻堅上,是全球為數不多的全棧布局的人工智能公司,在四層架構都有自主研發的領先產品和技術,因此可以進行端到端的優化,迅速提升大模型訓練和推理的效率。同時,文心大模型是完全自主可控的,做到了數據可控、框架可控、模型可控。
比如,在框架層,百度擁有自研的深度學習平臺飛槳,有力支撐了大模型的高效訓練和推理。
飛槳與文心的協同優化,讓文心大模型3.5最新版本的模型效果提升50%,訓練速度提升2倍,推理速度提升30倍。
而在芯片層,百度自研的昆侖芯,已實現兩代通用AI芯片產品的量產及落地應用。昆侖芯 1 代 AI 芯片于 2020 年量產,在百度搜索引擎、小度等業務中部署數萬片,是國內唯一一款經歷過互聯網大規模核心算法考驗的云端 AI 芯片,同時也被廣泛部署在互聯網、工業制造、智慧金融、智慧交通等領域。
搭載新一代架構 XPU-R 的昆侖芯 2 代 AI 芯片于 2021 年 6 月回片并當天點亮,8 月量產發布。昆侖芯 2 代 AI 芯片是國內首款采用 GDDR6 顯存的通用 AI 芯片,相比昆侖芯 1 代 AI 芯片性能提升 2-3 倍,且在通用性、易用性方面也有顯著增強。昆侖芯 2 代 AI 芯片已經開啟互聯網及各行業客戶交付,當前商業化進展順利。據悉,百度昆侖芯前兩代的產品已有數萬片的部署,第三代會在明年的年初上市。
另外,知識增強作為文心大模型的核心特色之一,實現了更高的效率、更好的效果、更強的可解釋性。在大模型生態方面,百度文心已形成企業、教育、社區三位一體的生態體系。最新數據顯示,百度有超過750萬開發者基礎,20萬企業生態基礎,多層次開展大模型人才培訓、企業賦能、開發者運營。百度還設立了10億創投基金鼓勵大模型創意、繁榮大模型生態。
“百模大戰”終局提前預演:百度已提前勝出 下一個是誰?
今年,AI大模型成為行業關鍵詞。一波由ChatGPT帶動的“百模大戰”正愈演愈烈。如今出門開發布會不提AI大模型,都不好意思跟人打招呼。
據媒體不完全統計,在OpenAI發布ChatGPT后,全球已發布數百個大模型,僅今年上半年在中國就發布了80多個大模型產品。到今年下半年,預計國內市面上的大模型將超過百款。
與此同時,我們也能清晰的看到,有的大模型各項能力已經愈發成熟,提前進入商業化落地探索階段。而絕大多數大模型,還在給觀眾看PPT。
激烈廝殺過后,當熱情消退,“百模大戰”的終局將如何發展?
百度集團副總裁吳甜判斷,國內“百模大戰”將會走向在少量大模型上衍生出廣泛應用生態的終局。大模型產業生態可類比芯片代工廠,把大數據、大算力、大算法都封裝,建設自動化、數字化、標準化的生產模式。未來依托幾個少量大模型,將會衍生出非常廣泛的應用生態。
“像文心一言這樣的大模型并不是想要做就能做起來的,需要有多年的積累、綜合的能力和堅定的信心,一直投入下去,才能夠做好。從這一點上可以看到,將來只能有少數的大模型。”
當下AI大模型還在“野蠻生長”階段,此次IDC的評估報告的發布,不僅是主流AI大模型的真實水平的一次集中檢驗,更是“百模大戰”終局的一次提前預演。相信隨著炒作大潮褪去,誰在“裸泳”,即將一目了然了。
國產AI大模型的上半場比拼,百度已經提前勝出,下半場會是誰?
本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。
如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com