久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當前的位置: 首頁 > 新聞 > 其他

豆包文科成績超了一本線:為什么理科不行

來源:量子位   編輯:非小米 時間:2024-07-01 15:25人閱讀

什么?好多大模型的文科成績超一本線,還是最卷的河南省???

豆包文科成績超了一本線:為什么理科不行
△圖源:極客公園

沒錯,最近就有這么一項大模型“高考大摸底”評測走紅了。

河南高考文科今年的一本線是521分,根據(jù)這項評測,共計四個大模型大于或等于這個分數(shù),其中頭兩名最值得關注:

GPT-4o:562分

字節(jié)豆包:542.5分

……

從結(jié)果中來看,GPT-4o的表現(xiàn)依舊是處于領先狀態(tài),而在國產(chǎn)大模型這邊,比較亮眼的成績便屬于豆包了。

并且在語文和歷史等科目的成績甚至還超越了GPT-4o。

這也讓不少網(wǎng)友紛紛感慨:

AI文科成績這么好,看來在處理語言和邏輯上還是很有優(yōu)勢的。

豆包文科成績超了一本線:為什么理科不行

不過有一說一,畢竟國產(chǎn)大模型的競爭是如此之激烈,這份評測的排名真的靠譜嗎?發(fā)布僅數(shù)月的豆包,真具備此等實力嗎?以及這數(shù)學……又是怎么一回事兒?

先看評測榜單

要回答上述的問題,我們不妨先來查一查豆包在最新的權(quán)威評測榜單中的表現(xiàn)是否一致。

首先有請由智源研究院發(fā)布的FlagEval(天秤)。

它的評測方式是這樣的:

對于開源模型, FlagEval會綜合概率選擇和自由生成兩種方式來評測,對于閉源模型, FlagEval只采用自由生成的方式來評測,兩種評測方式區(qū)別參照。

主觀評測時部分閉源模型對極小部分題目有拒絕回答的情形,這部分題目并沒有計入能力分數(shù)的計算。

在“客觀評測”這個維度上,榜單成績?nèi)缦拢?/p>

豆包文科成績超了一本線:為什么理科不行

不難看出,這一維度下的FlagEval中,前四名的成績是與“高考大摸底”的名次一致。

大模型依舊分別來自OpenAI、字節(jié)跳動、百度和百川智能。

并且豆包在“知識運用”和“數(shù)學能力”兩個維度上成績還高于第一名的GPT-4。

若是將評測方式調(diào)節(jié)至“主觀評測”,那么結(jié)果是這樣的:

豆包文科成績超了一本線:為什么理科不行

此時,百度的大模型躍居到了第一名,而字節(jié)的豆包依舊是穩(wěn)居第二的成績。

由此可見,不論是主觀還是客觀維度上,前幾位的名次都是與“高考大摸底”的成績是比較接近的。

接下來,我們再來有請另一個權(quán)威測評——OpenCompass(司南)。

豆包文科成績超了一本線:為什么理科不行

在最新的5月榜單中,豆包的成績也是僅次于OpenA家的大模型。

同樣的,在細分的“語言”和“推理”兩個維度中,豆包還是超越了GPT-4o和GPT-4 Turbo。

豆包文科成績超了一本線:為什么理科不行

但與專業(yè)評測冷冰冰的分數(shù)相比,人們都對高考有著更深刻的體驗和記憶。

那么接下來我們就通過豆包回答高考題,來看看大模型在應對人類考試時的具體表現(xiàn)。

再看實際效果

既然目前許多試卷的題目都已經(jīng)流出,我們不妨親測一下豆包的實力。

例如讓它先寫一篇新課標I卷語文的作文題目:

隨著互聯(lián)網(wǎng)的普及、人工智能的應用,越來越多的問題能很快得到答案。那么,我們的問題是否會越來越少?

以上材料引發(fā)了你怎樣的聯(lián)想和思考?請寫一篇文章。

要求:選準角度,確定立意,明確文體,自擬標題;不要套作,不得抄襲;不得泄露個人信息;不少于800字。

豆包文科成績超了一本線:為什么理科不行
△結(jié)果由豆包PC端對話生成

從豆包的作答上來看,是已經(jīng)擺脫了AI寫作文經(jīng)常犯的“首先-其次-以及-最后”這種模板式的寫法,也擅長引經(jīng)據(jù)典來做論證。

但畢竟每個人對于文筆的審美標準不同,因此豆包高考作文寫得如何,評價就交給你們了(歡迎在留言區(qū)討論)。

值得一提的是,在量子位向豆包團隊詢問后得知,原來豆包PC端對話和手機端“拍題答疑”是兩種截然不同的招式——

前者走的是LLM鏈路,后者走的則是RAG鏈路(若是用豆包手機端“拍題答疑”功能,高考數(shù)理化成績也能接近滿分)。

加上在這次“高考大摸底”評測出爐之后,很多網(wǎng)友們都將關注的重點聚焦到了數(shù)學成績上:

AI也怕數(shù)學。

豆包文科成績超了一本線:為什么理科不行

因此,接下來的實際效果測試,我們就將以“LLM鏈路+數(shù)學”的方式來展開。

先拿這次的選擇題來小試牛刀一下:

豆包文科成績超了一本線:為什么理科不行

當我們把題目在PC端“喂”豆包之后,它的作答如下:

豆包文科成績超了一本線:為什么理科不行

因此,豆包給出的答案是:

A、C、D、D、B、B、A、A

這里我們再來引入排名第一選手GPT-4o的作答:

A、D、B、D、C、A、C、B

豆包文科成績超了一本線:為什么理科不行

而根據(jù)網(wǎng)上目前多個信源得到的標準答案是:A、C、D、A、B、B、C、B。

對比來看,豆包對5道,GPT-4o答對4道。

而對于更多的數(shù)學題的作答,其實復旦大學自然語言處理實驗室在高考試卷曝光后第一時間做了更加全面的測試(所有大模型只能依靠LLM推理答題,不能通過RAG檢索答案):

豆包文科成績超了一本線:為什么理科不行

豆包文科成績超了一本線:為什么理科不行
△圖源:復旦大學自然語言處理實驗室

由此可見,大模型并不能完全hold住高考數(shù)學題目,并且不同人生成答案的結(jié)果也會出現(xiàn)偏差。

并且量子位在反復測試后發(fā)現(xiàn),豆包對話答題時有一定隨機性,多輪測試時的結(jié)果并不完全一樣。上文只取樣其中一輪的結(jié)果。

這也正如廣大網(wǎng)友所反饋的那般——大模型文科強、理科弱。

對此,技術(shù)圈也已經(jīng)有一些討論和解釋:

大語言模型的基本原理是“文字接龍”,通過預測下一個token來生成內(nèi)容,每次預測都有隨機性和概率分布。

當大語言模型學習了海量知識數(shù)據(jù),天然就適應考驗記憶能力和語言運用的文科考試。

但理科考試主要考驗推理和計算,比如一道數(shù)學題包含5步推理和5步計算,假設大語言模型每一步預測準確的概率都有90%,綜合下來的準確率就只有35%。

另一方面,理科語料比較稀缺。大模型的訓練數(shù)據(jù)中,文科語料要遠遠大于理科語料。這也是大模型更擅長文科的一個原因。

大模型都在努力提升智能水平,主要目標就是提高推理和計算能力。目前學界對此存在爭議,有觀點認為,“預測下一個token”本身就包含了推理,計算也是一種推理。

只要Scaling Law生效,大模型性能持續(xù)提升,推理和計算能力就能夠提升;但也有反對者(如Yann LeCun)認為,大語言模型缺乏真正的規(guī)劃推理能力,其涌現(xiàn)能力實際上是上下文學習的結(jié)果,主要體現(xiàn)在簡單任務和事先知道答案的情境中。大語言模型未來是否能夠真正實現(xiàn)AGI,目前還沒有定論。

那是不是大模型就不適合用戶來解數(shù)學題了呢?

也并不全是。

正如剛才所說,如果用豆包手機端的“拍題答疑”,也就是RAG鏈路的方式,那么結(jié)果的“打開方式”就截然不同了。

我們可以先用豆包APP對著題目拍照,讓它先進行識別:

豆包文科成績超了一本線:為什么理科不行

結(jié)果就是——全對!

豆包文科成績超了一本線:為什么理科不行

至于更多類型題目大模型們的表現(xiàn)會如何,友友們可以拿著感興趣的題目自行測試一番了。

如何評價?

從“高考大摸底”和智源FlagEval、上海AI Lab OpenCompass等評測上可以看到,豆包大模型已經(jīng)穩(wěn)穩(wěn)進入國產(chǎn)第一梯隊。

但隨即而來的一個問題便是,過去一年多異常低調(diào)的豆包,是如何在短短一個月內(nèi)就開始爆發(fā)的?

其實早在發(fā)布之際,豆包與其它大模型廠商截然不同的路徑就已經(jīng)有所體現(xiàn),歸結(jié)其背后的邏輯就是:

只有最大的使用量,才能打磨出最好的大模型。

據(jù)了解,豆包大模型在5月15日正式發(fā)布時,其每天平均處理的token數(shù)量高達1200億,相當于1800億的漢字;每天生成圖片的數(shù)量為3000萬張。

不僅如此,豆包大模型家族還會在包括抖音、今日頭條等在內(nèi)的50多個場景中進行實踐和驗證。

因此,我們可以把豆包在大模型性能上的路數(shù),視為用“左手使用量,右手多場景”的方式反復打磨而來。

一言蔽之,大模型好不好,用一下就知道了。

并且基于豆包大模型打造的同名產(chǎn)品豆包APP,已成為國內(nèi)最受歡迎的AIGC類應用。

這一點上,從量子位智庫所匯總的智能助手“APP下載總量”和“APP月新增下載總量”便可一目了然——

豆包,均拿下第一。

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

標簽: 大模型 豆包

相關文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
欧美成年人视频| 国产九色精品成人porny| 精品成人免费| 亚洲成色www8888| 狠狠狠色丁香婷婷综合激情| 狠狠色狠狠色综合日日五| 麻豆精品精品国产自在97香蕉| 国产一区二区成人久久免费影院| 久久成人免费网| 蜜桃av一区二区三区| 亚洲影音先锋| 免费成人性网站| 午夜精彩国产免费不卡不顿大片| 欧美一二区视频| 99综合在线| 欧美精品在线观看一区二区| 一区二区三区日韩精品| 欧美一区二区三区电影在线观看| 亚洲人成免费| 久久久久国产精品一区二区| 亚洲欧美精品伊人久久| 欧美高清在线一区| 巨乳诱惑日韩免费av| 国产精品成av人在线视午夜片| 欧美不卡一卡二卡免费版| 国产日韩欧美另类| 欧美在线三区| 欧美在线中文字幕| 国产乱码精品一区二区三| 在线视频你懂得一区二区三区| 亚洲精品在线电影| 欧美成人免费在线| 亚洲美女中文字幕| 午夜精品三级视频福利| 韩国欧美一区| 亚洲精品看片| 国产三区精品| 欧美怡红院视频一区二区三区| 一区二区久久久久| 国产精品麻豆欧美日韩ww| 亚洲女同同性videoxma| 久久久国产精品一区二区中文 | 99riav久久精品riav| 亚洲国产综合91精品麻豆| 亚洲一区二区视频| 欧美一区亚洲一区| 在线免费观看欧美| 欧美日韩精品久久| 久久精品91久久久久久再现| 欧美承认网站| 欧美在线观看一区| 日韩一级成人av| 国产日韩欧美综合| 欧美日韩国产精品一卡| 亚洲欧美不卡| av成人国产| 欧美成人免费在线| 亚洲精品综合久久中文字幕| 男女视频一区二区| 99re66热这里只有精品3直播| 国产精品高潮在线| 欧美国产高潮xxxx1819| 欧美一区二区私人影院日本 | 91久久精品国产91久久性色tv| 亚洲一区二区三| 日韩一区二区福利| 亚洲国产综合在线看不卡| 国产精品久久久久aaaa| 国产精品国产三级国产| 欧美精品一区二| 好吊色欧美一区二区三区四区 | 国产自产v一区二区三区c| 久久久人人人| 一本色道久久精品| 欧美在线播放一区二区| 裸体丰满少妇做受久久99精品| 亚洲免费观看高清完整版在线观看熊| 国产午夜精品一区二区三区视频| 欧美日韩国产精品专区| 国产精品久久久久久亚洲毛片| 欧美三级乱码| 日韩视频中午一区| 欧美日韩精品伦理作品在线免费观看| 午夜精品久久久| 美女性感视频久久久| 欧美视频国产精品| 激情偷拍久久| 国产日韩欧美一区在线 | 亚洲黄色一区| 一区二区三区久久网| 香蕉久久久久久久av网站| 久久久国产精品一区二区中文| 欧美黄色aaaa| 韩国一区电影| 久久激情一区| 亚洲一区二区av电影| 欧美成人久久| 亚洲国产另类精品专区| 欧美在线观看日本一区| 欧美mv日韩mv国产网站app| 日韩视频欧美视频| 欧美大香线蕉线伊人久久国产精品| 国产精品久久久久久久浪潮网站 | 亚洲乱码国产乱码精品精| 久久久精品一区| 国产一区二区成人| 久久久噜噜噜| 久久精品成人| 国产精品亚洲产品| 久久av二区| 欧美亚洲一区三区| 久久免费视频网| 一本色道久久综合亚洲精品不 | 制服丝袜亚洲播放| 国产欧美精品日韩精品| 久久综合伊人77777尤物| 欧美激情第10页| 欧美专区在线| 在线视频你懂得一区二区三区| 亚洲成在线观看| 国产视频自拍一区| 亚洲国产欧美国产综合一区 | 一本到12不卡视频在线dvd| 香蕉视频成人在线观看| 欧美国产激情| 久久视频免费观看| 亚洲精品一区二区三区四区高清| 亚洲国产欧美国产综合一区| 欧美人成在线| 久久久久成人网| 欧美精品一区二区三区视频| 亚洲一区日韩在线| 麻豆91精品| 性色av一区二区三区| 欧美电影电视剧在线观看| 亚洲欧美视频一区| 欧美视频官网| 欧美风情在线| 亚洲第一免费播放区| 亚洲一级在线观看| 一本大道av伊人久久综合| 久久久久久久国产| 久久噜噜噜精品国产亚洲综合| 欧美日韩精品一区二区在线播放| 久久久亚洲高清| 国产一区二区成人久久免费影院| 亚洲每日更新| 亚洲欧美综合另类中字| 欧美日韩久久| 国产精品99久久久久久白浆小说| 99re热精品| 欧美日韩精品免费观看视一区二区 | 欧美国产一区二区在线观看| 欧美综合国产| 伊人久久男人天堂| 久久综合色播五月| 亚洲人体1000| 亚洲午夜国产成人av电影男同| 欧美日韩激情小视频| 一区二区国产在线观看| 欧美一区日韩一区| 有码中文亚洲精品| 欧美屁股在线| 久久久久久久久久久久久9999| 欧美va亚洲va日韩∨a综合色| 亚洲精品久久久蜜桃| 国产日韩在线播放| 欧美激情亚洲| 亚洲人成精品久久久久| 国产精品你懂得| 欧美黄色一区| 男女精品网站| 久久久久在线| 久久久人人人| 欧美一区三区二区在线观看| 亚洲人久久久| 亚洲激情综合| 欧美激情视频一区二区三区在线播放| 亚洲男人第一网站| 亚洲午夜久久久| 亚洲自拍偷拍视频| 中文日韩在线视频| 在线视频一区二区| 在线综合视频| 亚洲伊人久久综合| 亚洲欧美日本国产有色| 午夜日韩av| 久久九九有精品国产23| 久久久久久一区二区三区| 久久久欧美精品sm网站| 亚洲国产mv| 裸体歌舞表演一区二区| 一区免费观看| 一区在线视频| 一本色道久久加勒比88综合| 一个色综合导航| 久久蜜桃av一区精品变态类天堂| 欧美一区激情视频在线观看| 亚洲欧美日韩第一区| 中国成人亚色综合网站|