久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當(dāng)前的位置: 首頁 > 新聞 > 其他

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

來源:量子位   編輯:非小米 時(shí)間:2023-06-17 12:45人閱讀

萬萬想不到啊,MIT數(shù)學(xué)考試,被GPT-4攻破了?!

突然有人在最新論文工作中高調(diào)宣布:

GPT-4在MIT的數(shù)學(xué)和EECS(電氣工程和計(jì)算機(jī)科學(xué)系)本科學(xué)位考試中,表現(xiàn)出的能力完全滿足畢業(yè)要求。

而且妥妥地拿下滿分!

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

要知道,測出這個(gè)結(jié)果的不是別人,正是來自MIT和波士頓大學(xué)、康奈爾大學(xué)的研究團(tuán)隊(duì)。

而且強(qiáng)如上一代王者GPT-3.5,在同樣的測試中,只成功搞定了三分之一。

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

△GPT-3.5考試成績

論文一出,無數(shù)目光迅速被吸引過來。

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

GPT-4這樣看似開掛的行為,自然引發(fā)了不少網(wǎng)友的感慨。

比GPT-3.5強(qiáng)好多,好耶!

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

咱就是說,有沒有可能以后不需要比GPT-4更強(qiáng)的模型,來解決學(xué)術(shù)問題了?

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

還有網(wǎng)友展現(xiàn)了自己網(wǎng)上沖浪的“前沿性”,玩了個(gè)這兩天Yann LeCun吐槽“GPT-4智商不如狗”的梗:

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

GPT-4開掛MIT考試

具體來說,GPT-4這次是參與了這樣一場測試:

研究團(tuán)隊(duì)策劃了一個(gè)數(shù)據(jù)集,其中包含4550個(gè)問題和解決方案。

這4550個(gè)問題和解決方案,來自MIT數(shù)學(xué)系和EECS的學(xué)生獲得本科學(xué)位,需要學(xué)習(xí)的課程問題集、期中考試和期末考試。

包括:

6-1:電氣科學(xué)與工程;6-2:電氣工程與計(jì)算機(jī)科學(xué);6-3:計(jì)算機(jī)科學(xué)與工程;6-4:人工智能與決策;18-1:普通數(shù)學(xué);18-2:應(yīng)用數(shù)學(xué);18-3:純數(shù)學(xué);18-C:數(shù)學(xué)與計(jì)算機(jī)科學(xué)。

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

△每個(gè)專業(yè)的詳細(xì)分類總結(jié)

題目統(tǒng)統(tǒng)出自MIT的數(shù)據(jù)集,從中隨機(jī)生成228個(gè)問題,不涉及圖像和已有解決方案的問題。

題目的難度等級由易到難依次為:練習(xí)、習(xí)題、 期中考試、期末考試、實(shí)驗(yàn)和專題。

按答案類型排序,題目的難度由易到難依次為:編程、開放、選擇題、數(shù)值、表達(dá)式和圖像。

這一次,參與考試的不只有GPT-4和GPT-3.5,還有StableVicuna-13B、LLaMA-30B和LLaMA-60B。

選擇讓這4個(gè)大模型作為考試參賽選手,原因是它們是“最先進(jìn)的大語言模型”。

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

△最終考試成績

通過表格里的數(shù)據(jù)可以看到,得分最高的是經(jīng)過調(diào)優(yōu)后的GPT-4,得分率100%;表現(xiàn)最一般的是LLaMA-30B,只拿下了30%的分?jǐn)?shù)。

值得關(guān)注的是,原始版本的GPT-4開箱即用,完全不經(jīng)過調(diào)優(yōu),在本次MIT考試中也拿到了90%的分?jǐn)?shù)。

調(diào)優(yōu)流程,包括Few-Shot+CoT+Self-critique+Experts。

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

從最終考試成績的表格數(shù)據(jù)可以看到,從左到右每增加一個(gè)環(huán)節(jié),調(diào)優(yōu)后的GPT-4得分都會(huì)更上一層樓。

此外,研究團(tuán)隊(duì)還在提示框里進(jìn)行了工程優(yōu)化,具體的“咒語”如下:

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

等等,評分人是GPT-4自己?

看到這樣的結(jié)果,不少網(wǎng)友心生感慨,LLM在數(shù)學(xué)考試上的進(jìn)步,未免有些神速了哈。

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

2年前,AI還在苦苦掙扎小學(xué)數(shù)學(xué)問題。

類似“小明種了5棵檸檬樹,每年從每棵樹上得到6個(gè)檸檬,10年間他總共得到多少檸檬”這種。

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

去年年初,MIT+哈佛+哥倫比亞大學(xué)+滑鐵盧大學(xué)的聯(lián)合研究表示,把數(shù)學(xué)問題轉(zhuǎn)換成等價(jià)的編程問題,就可以讓GPT-3的同門師兄弟——OpenAI的Codex掌握高數(shù),達(dá)到MIT本科水平。

學(xué)了6門MIT本科基礎(chǔ)數(shù)學(xué)課里隨機(jī)抽取的例題,6門課程每門隨機(jī)出25道題,再加上一個(gè)ACT水平(美國高考)的數(shù)據(jù)集里的60道題。

總計(jì)210道題,AI全部答對。

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

不過有人提出,AI達(dá)到的“MIT本科水平”,實(shí)際是Codex在做語言題而非數(shù)學(xué)題——

因?yàn)楫?dāng)時(shí)的評測中,Codex負(fù)責(zé)讀寫,并不包括求解。

所以,這一回GPT-4表現(xiàn)奇佳,怎一個(gè)妙字了得~

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

好了,知道你很著急夸它,但你先別著急夸它,因?yàn)楹芸煊腥税l(fā)現(xiàn)了一些“詭異”。

主要有2大槽點(diǎn)。

第一個(gè)值得質(zhì)疑一番的,就是OpenAI的訓(xùn)練數(shù)據(jù)集沒有完全公布。

這也就意味著,無法證明數(shù)據(jù)集中的4550個(gè)問題和解決方案,在GPT-4的訓(xùn)練集中不存在。

換句話說,如果GPT-4在預(yù)訓(xùn)練階段已經(jīng)接觸到了這次的考題們,那最終拿下完美得分,就沒什么好驚喜的了。

也難怪乎有網(wǎng)友毫不客氣地yygq,認(rèn)定GPT-4拿到這樣的結(jié)果,一定是數(shù)據(jù)集已經(jīng)包含在訓(xùn)練數(shù)據(jù)里了。

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

第二個(gè)槽點(diǎn),就是GPT-4最后100%的得分率,似乎哪里不對勁???

定睛一看,在論文的第2.6節(jié)有一句很關(guān)鍵的點(diǎn):

團(tuán)隊(duì)在數(shù)據(jù)集上微調(diào)開源大模型,“給定問題Q、基本事實(shí)解S和LLM答案A,我們使用GPT-4自動(dòng)對模型響應(yīng)進(jìn)行評分”。

實(shí)際操作上,就是每個(gè)大模型生成這次考試的答案,然后派出GPT-4打分,分值在0-5之間。

所以給GPT-4打出滿分的,實(shí)際上是GPT-4自己。

啊這……很難說沒有王婆賣瓜自賣自夸的嫌疑。

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

此外,關(guān)于要給GPT-4提供“好的提示”,才能讓它達(dá)到滿分成績,也讓許多人抱有微詞。

到底什么算“好的提示”呢?似乎無法定義。

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

甚至有人喊著,應(yīng)該把這些題丟給MIT數(shù)學(xué)和EECS的學(xué)生去做,并不斷給他們“好的提示”,這樣人類學(xué)生也能拿下100%的吧……

One More Thing

一個(gè)小小的彩蛋:

整個(gè)測試中,基本上可以在筆記本電腦上部署運(yùn)行的StableVicuna-13B,也有48%的得分率。

GPT-4滿分通過MIT本科數(shù)學(xué)考試!這套提示詞火了

這個(gè)成績,不僅比模型更大的LLaMA-65B高出近10個(gè)百分點(diǎn),就連MIT fine-tuing過后的LLaMA-30B,還要高。

讓人不得不陷入一些關(guān)于模型規(guī)模與能力相關(guān)性的思考。

參考鏈接:[1]https://arxiv.org/abs/2306.08997

[2]https://twitter.com/johnjnay/status/1669687958960586753

[3]https://twitter.com/arankomatsuzaki/status/1669528841629601792

[4]https://twitter.com/emollick/status/1669742473097228292

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 大模型 ChatGPT

相關(guān)文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
亚洲免费成人| 欧美日韩中文字幕| 国产亚洲欧美另类一区二区三区| 亚洲一区视频| 亚洲专区免费| 韩日欧美一区二区| 国产精品久久久久婷婷| 亚洲综合欧美日韩| 久久精品国产视频| 亚洲精品一区二区三区在线观看| 亚洲精品国精品久久99热| 99精品国产高清一区二区| 亚洲午夜一区二区| 欧美一二区视频| 国内精品久久久久久 | 日韩一级精品视频在线观看| 亚洲国产美女精品久久久久∴| 欧美精品日日鲁夜夜添| 亚洲在线免费视频| 欧美一区二区三区在线观看视频| 午夜精品在线视频| 伊人精品成人久久综合软件| 亚洲欧洲一区二区在线观看| 国产精品素人视频| 亚洲第一区在线观看| 欧美性色aⅴ视频一区日韩精品| 久久九九热免费视频| 牛夜精品久久久久久久99黑人 | 国产自产在线视频一区| 亚洲国产精品精华液2区45 | 久久久www成人免费无遮挡大片| 亚洲裸体在线观看| 欧美在线首页| 亚洲一级在线| 欧美成人黄色小视频| 欧美专区亚洲专区| 亚洲国产精品激情在线观看| 国产精品丝袜白浆摸在线| 亚洲免费观看高清完整版在线观看熊| 欧美经典一区二区| 久久先锋资源| 国产精品免费电影| 亚洲精品国产精品久久清纯直播| 国产日韩精品久久久| 亚洲理伦在线| 亚洲精品视频一区| 久久九九国产精品| 久久精品30| 国产精品看片你懂得| 亚洲精品国产视频| 久久精品噜噜噜成人av农村| 亚洲欧美激情四射在线日| 亚洲国产成人在线| 亚洲私人影院在线观看| 久久亚洲综合色| 老司机精品久久| 国产午夜亚洲精品羞羞网站 | 亚洲一区久久久| 欧美精品亚洲一区二区在线播放| 奶水喷射视频一区| 极品日韩av| 久久精品免费电影| 麻豆成人综合网| 激情综合自拍| 美女精品国产| 亚洲国产精品毛片| 亚洲免费成人av| 欧美精品粉嫩高潮一区二区| 影音先锋亚洲电影| 久久精品青青大伊人av| 久久一综合视频| 亚洲国产精品ⅴa在线观看| 久久久久综合网| 欧美激情视频网站| 99re热这里只有精品视频| 欧美屁股在线| 国产精品99久久久久久有的能看| 亚洲综合日韩| 国产一区二区三区自拍| 久久久夜精品| 亚洲欧洲一区二区天堂久久| 亚洲综合电影一区二区三区| 国产精品―色哟哟| 久久精品人人做人人综合| 免费成人美女女| 91久久综合亚洲鲁鲁五月天| 欧美精品激情| 亚洲在线播放电影| 国产欧美精品在线播放| 久久精品视频在线播放| 亚洲国产欧美一区| 亚洲欧美日本视频在线观看| 国产午夜精品久久久久久久| 久久亚洲精品一区| 亚洲精品国产精品乱码不99| 亚洲尤物在线视频观看| 韩国av一区二区| 欧美另类亚洲| 欧美一区网站| 亚洲精品在线观看免费| 亚洲特色特黄| 中文有码久久| 欧美综合77777色婷婷| 亚欧成人在线| 亚洲影院免费| 欧美成人精品不卡视频在线观看| 国产精品久久久久免费a∨大胸| 韩国自拍一区| 麻豆国产精品一区二区三区| 亚洲精品一区二区三区不| 欧美成人一区二区三区片免费| 国产一区二区三区高清| 欧美在线999| 久久精品亚洲| 亚洲人永久免费| 国产综合av| 久久美女性网| 欧美激情视频网站| 99热免费精品| 亚洲欧美国产高清va在线播| 国产精品性做久久久久久| 欧美在线在线| 老司机亚洲精品| 亚洲一级特黄| 男人的天堂亚洲| 亚洲欧美日韩成人| 久久久综合香蕉尹人综合网| 欧美超级免费视 在线| 国产一区二区三区无遮挡| 中文欧美字幕免费| 欧美xx69| 国产精品视频999| 久久久噜噜噜久久| 欧美日韩国产综合新一区| 亚洲欧美视频一区| 欧美大香线蕉线伊人久久国产精品| 一区二区三区免费在线观看| 欧美一区二区播放| 一区二区欧美国产| 午夜影院日韩| 欧美人与禽性xxxxx杂性| 久久精品青青大伊人av| 国产精品裸体一区二区三区| 欧美日韩大片| 99精品国产在热久久| 亚洲一区二区黄色| 国产日韩亚洲| 在线亚洲电影| 一区二区三区福利| 欧美日韩美女一区二区| 亚洲国产一区二区视频| 黄色资源网久久资源365| 午夜日韩激情| 欧美成人免费全部观看天天性色| 黄网站色欧美视频| 欧美大片第1页| 亚洲清纯自拍| 亚洲第一在线综合在线| 亚洲美女在线国产| 亚洲欧洲综合另类| 在线一区日本视频| 红桃视频成人| 欧美一区二区三区精品| 亚洲视频成人| 国产欧美日韩一级| 牛牛精品成人免费视频| 99热免费精品| 久久久青草婷婷精品综合日韩| av不卡在线观看| 久久精品夜色噜噜亚洲a∨| 一区二区三区中文在线观看 | 一片黄亚洲嫩模| 欧美日韩精品福利| 久久久蜜桃一区二区人| 亚洲精品国产日韩| 欧美11—12娇小xxxx| 亚洲伊人色欲综合网| 99国产精品视频免费观看| 国产欧美一区二区精品性色| 欧美精品九九| 99精品久久免费看蜜臀剧情介绍| 国产一区二区三区在线观看精品| 欧美国产激情| 麻豆精品视频在线观看| 久久久精品免费视频| 亚洲欧美999| 亚洲一区久久| 亚洲欧美日韩国产精品| 在线视频日本亚洲性| 伊伊综合在线| 尤物在线精品| 最新精品在线| 一区二区三区欧美日韩| 亚洲视频欧美在线| 欧美成人午夜激情| 免费在线看一区| 欧美日韩亚洲视频一区| 国产精品九九久久久久久久| 国产精品拍天天在线| 狠狠色狠狠色综合日日小说|