久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當前的位置: 首頁 > 新聞 > 其他

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

來源:量子位   編輯:非小米 時間:2024-07-16 14:25人閱讀

沒眼看……“9.11和9.9哪個大”這樣簡單的問題,居然把主流大模型都難倒了??

強如GPT-4o,都堅定地認為9.11更大。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

谷歌Gemini Advanced付費版,同樣的口徑。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

新王Claude 3.5 Sonnet,還一本正經的給出離譜的計算方法。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

9.11 = 9 + 1/10 + 1/100

9.9 = 9 + 9/10

到這一步還是對的,但下一步突然就不講道理了:

如上所示,9.11比9.90大0.01。

你想讓我進一步詳細解釋小數的比較嗎?

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

這你還解釋啥啊解釋,簡直要懷疑是全世界AI聯合起來欺騙人類了。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

艾倫AI研究所成員林禹臣換了個數字測試,GPT-4o依舊翻車,他表示:

一方面AI越來越擅長做數學奧賽題,但另一方面常識依舊很難。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

也有網友發現了華點,如果是說軟件版本號,那么9.11版本確實比9.9版本更大(更新)。

而AI都是軟件工程師開發的,所以……

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

那么,究竟是怎么回事?

先進大模型集體翻車

一覺醒來,一眾響當當的大模型開始認為“9.11>9.9”了?

發現這個問題的是Riley Goodside,有史以來第一個全職提示詞工程師。

簡單介紹下,他目前是硅谷獨角獸Scale AI的高級提示工程師,也是大模型提示應用方面的專家。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

最近他在使用GPT-4o時偶然發現,當提問:

9.11 and 9.9——which is bigger?

GPT-4o竟毫不猶豫回答前者更大。

面對這一常識性“錯誤”,他不死心地又去問了其他大模型,結果幾乎全軍覆沒。

好家伙,身為一名提示工程師,他敏銳意識到可能是“打開方式有誤”。

于是他又換了個問法,將提問限定在“實數”,結果還是翻車了。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

不過,有網友試著給提問換了個順序,沒想到這下AI竟反應過來了。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

看到AI對詞序如此“敏感”,該網友進一步推測:

先問哪個更大,AI會沿著明確路徑開始比較數字。但如果只是隨便說說數字,沒有明確目的,AI可能會開始“胡思亂想”。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

看到這里,其他網友也紛紛拿相同提示試了一把,結果翻車的不在少數。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

面對這一個詭異的問題,國產大模型表現如何呢?

我們簡單測試一番,問題也換成中文提問,結果翻車率也比較高,選取幾個有代表性的展示:

Kimi也是不加解釋就直接給出錯誤結論。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

智譜清言APP上的ChatGLM,自動觸發了聯網查詢,然后描述了自己的比較方法,可惜卻執行錯了。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

不過也有表現不錯的,騰訊元寶先復述了一遍選項,然后直接做對。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

字節豆包是少數能把比較方法描述清楚,而且用對的。甚至還聯系實際舉例來驗證。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

比較可惜的是文心一言,面對這個問題,也是觸發了聯網查詢。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

本來都已經做對了,但突然話鋒一轉又導向了錯誤結論。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

不過從文心一言的思路解釋上,也可以看出背后問題所在。

由于大模型以token的方式來理解文字,當9.11被拆成“9”、“小數點”和“11”三部分時,11確實比9大。

由于OpenAI使用的Tokenizer開源,可以用來觀察大模型是如何理解這個問題。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

上圖可以看出,9和小數點分別被分配為“24”和“13”,小數點后的9同樣也是“24”,而11被分配到“994”。

所以使用這種tokenizer方法的大模型會認為9.11更大,其實是認為11大于9。

也有網友指出,像是書籍目錄里第9.11節也比第9.9節大,所以最終可能還是訓練數據里見這種見得多了,而手把手教基礎算數的數據很少。

也就是說,問題本身對人類來說,一看就知道問的是算數問題,但對AI來說是一個模糊的問題,并不清楚這兩個數字代表什么。

只要向AI解釋明白這是一個雙精度浮點數,就可以做對了。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

在有額外條件的情況下,tokenizer這一步依然會給11分配更大的token。

但是在后續自注意力機制的作用下,AI就會明白要把9.11連起來處理了。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

后來Goodside也補充,并不是說大模型無論如何都認定了這個錯誤結論,而是當以特定方式提問時,許多領先模型都會告訴你9.11>9.9,這很奇怪。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

經過反復嘗試后他發現,想讓AI上這個當,需要把選項放在提問前面,如果調換順序就不會出錯。

但是只要選項在問題前面,改變提問的方式,如加標點、換詞匯都不會有影響。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

雖然問題很簡單,錯誤很基礎。

但了解出錯原理之后,許多人都把這個問題當成了檢驗提示詞技巧的試金石,也就是:用什么提問方法能引導大模型的注意力機制正確理解問題呢?

首先,大名鼎鼎的Zero-shot CoT思維鏈,也就是“一步一步地想”,是可以做對的。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

不過角色扮演提示,在這里作用就有限了。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

剛好最近也有微軟和OpenAI都參與的一項研究,分析了1500多份論文后發現,隨著大模型技術的進步,角色扮演提示不像一開始那樣有用了……

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

具體來說,同一個問題提示“你是一個天才……”比“你是一個傻瓜……”的正確率還低。

也是讓人哭笑不得了。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

One More Thing

與此同時,路透社的OpenAI秘密模型「草莓」泄漏消息更新了。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

更新內容為:另一位線人報告,OpenAI已經在內部測試了新模型,在MATH數據集上得分超過90%。路透社無法確定這是否與“草莓”是同一個項目。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

MATH數據集包含競賽級別的數學題,目前不用多次采樣等額外方法,最高分是谷歌Gemini 1.5 Pro數學強化版的80.6%。

9.11和9.9哪個大?AI大模型集體失智 幾乎全翻車了

但是OpenAI新模型在沒有額外提示情況下,能不能自主解決“9.11和9.9哪個大?”。

突然沒信心了,還是等能試玩了再看結果吧……

參考鏈接:

[1] https://x.com/goodside/status/1812977352085020680

[2] https://x.com/billyuchenlin/status/1812948314360541302

[3] https://www.reuters.com/technology/artificial-intelligence/openai-working-new-reasoning-technology-under-code-name-strawberry-2024-07-12/

[4] https://tiktokenizer.vercel.app[5]https://x.com/learnprompting/status/1812867464419852765

本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

相關文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
欧美少妇一区| 欧美顶级艳妇交换群宴| 国产情人综合久久777777| 香蕉久久夜色精品国产| 亚洲综合电影| 国产一区二区精品丝袜| 欧美本精品男人aⅴ天堂| 欧美高清视频在线播放| 中文在线资源观看视频网站免费不卡| 亚洲精品一区二| 国产精品羞羞答答xxdd| 久久精品国产视频| 另类图片国产| 亚洲免费影视第一页| 欧美亚洲一区| 日韩视频一区二区三区| 亚洲婷婷免费| 亚洲激情视频在线播放| 一区二区三区国产在线| 黑人巨大精品欧美一区二区小视频| 女女同性女同一区二区三区91| 欧美精品久久99久久在免费线| 亚洲欧美日韩在线不卡| 久久夜色精品一区| 亚洲男人的天堂在线观看| 久久久999精品免费| 亚洲视频www| 久久性色av| 欧美在线日韩精品| 国产精品永久在线| 日韩亚洲精品在线| 性色av香蕉一区二区| 99re国产精品| 久久精品国产成人| 亚洲欧美日韩国产精品| 嫩草成人www欧美| 久久精品人人爽| 欧美日韩一区二区三区免费| 欧美freesex交免费视频| 国产精品成人播放| 亚洲激情电影在线| 国外视频精品毛片| 亚洲一区二区三区四区在线观看| 尤物99国产成人精品视频| 亚洲一区三区视频在线观看| 99这里只有精品| 麻豆精品一区二区综合av| 久久精品视频一| 国产精品久久久久免费a∨| 亚洲人人精品| 日韩一二在线观看| 欧美成人午夜剧场免费观看| 久热精品视频在线观看一区| 国产欧美一区二区三区久久| 一二三区精品| 亚洲一区二区在线观看视频| 欧美激情亚洲综合一区| 亚洲高清成人| 日韩视频一区二区三区在线播放| 鲁大师成人一区二区三区| 久久色在线播放| 国外成人在线| 久久乐国产精品| 免费在线一区二区| 亚洲国产精品999| 免费短视频成人日韩| 亚洲高清不卡在线观看| 亚洲靠逼com| 欧美女同视频| 亚洲伦理一区| 亚洲欧美日韩国产| 国产欧美日韩免费| 欧美一区二区三区日韩| 久久久久久97三级| 激情欧美一区二区三区| 久久婷婷国产综合尤物精品| 欧美国产在线观看| 9久re热视频在线精品| 欧美午夜理伦三级在线观看| 亚洲天堂免费在线观看视频| 欧美影院在线播放| 精品88久久久久88久久久| 免播放器亚洲| 夜夜嗨一区二区三区| 欧美一区午夜视频在线观看| 狠狠v欧美v日韩v亚洲ⅴ| 麻豆视频一区二区| 亚洲黄网站黄| 久久精品国产一区二区三区| 亚洲电影免费在线| 欧美日韩三级电影在线| 性色一区二区| 亚洲第一精品夜夜躁人人爽| 亚洲午夜视频在线观看| 国产综合在线看| 欧美激情第二页| 亚洲影视在线| 欧美激情aaaa| 欧美第十八页| 精品盗摄一区二区三区| 欧美激情在线有限公司| 亚洲一区二区三区免费视频| 美国成人直播| 亚洲婷婷综合色高清在线| 国产欧美日韩精品在线| 欧美国产日韩一区二区在线观看| 亚洲视频日本| 最新精品在线| 狂野欧美性猛交xxxx巴西| 亚洲午夜视频在线观看| 亚洲国产精品成人一区二区| 国产精品羞羞答答| 欧美日韩麻豆| 牛夜精品久久久久久久99黑人 | 国产精品亚洲激情| 欧美成人一区二区| 欧美综合国产| 亚洲小视频在线| 日韩视频免费观看高清在线视频 | 日韩午夜黄色| 亚洲国产婷婷| 韩日欧美一区| 国产欧美视频一区二区三区| 欧美日韩小视频| 欧美激情一区二区久久久| 久久青草久久| 久久精品国产欧美亚洲人人爽| 亚洲午夜精品视频| 亚洲美女视频在线观看| 亚洲大胆视频| 亚洲福利视频一区二区| 免费观看在线综合色| 久久免费视频在线观看| 久久久久久久网站| 欧美在线观看视频一区二区三区| 亚洲综合不卡| 亚洲欧美一区二区三区极速播放| 一区二区精品在线观看| 99re视频这里只有精品| 夜夜嗨av一区二区三区中文字幕| 亚洲精品123区| 亚洲伦理中文字幕| 99精品视频免费全部在线| 亚洲精品国产精品乱码不99按摩| 亚洲国产成人91精品| 亚洲国产清纯| 99re亚洲国产精品| 亚洲一区美女视频在线观看免费| 亚洲调教视频在线观看| 午夜国产精品视频| 久久精品中文字幕免费mv| 久久琪琪电影院| 亚洲第一二三四五区| 亚洲片在线资源| 一区二区三区欧美在线| 香蕉成人久久| 久久视频这里只有精品| 欧美91视频| 欧美日韩另类字幕中文| 国产乱理伦片在线观看夜一区| 国产亚洲aⅴaaaaaa毛片| 在线国产欧美| 在线亚洲免费| 欧美在线视频一区| 欧美成人精品| 快射av在线播放一区| 欧美片网站免费| 欧美激情一区二区三区成人| 欧美四级电影网站| 国产视频久久久久| 亚洲二区在线视频| 亚洲色图综合久久| 美女福利精品视频| 91久久黄色| 亚洲一区欧美二区| 老色鬼精品视频在线观看播放| 欧美不卡在线| 国产伦理一区| 亚洲电影自拍| 亚洲欧美一区二区精品久久久| 久久久噜噜噜久久中文字免| 亚洲日本电影| 久久精品国产欧美亚洲人人爽| 欧美久久久久免费| 狠狠综合久久av一区二区小说 | 亚洲黄网站黄| 99香蕉国产精品偷在线观看| 香蕉成人伊视频在线观看| 欧美成人免费va影院高清| 亚洲线精品一区二区三区八戒| 久久免费视频这里只有精品| 国产精品v日韩精品| 亚洲国产成人一区| 久久精品国产第一区二区三区最新章节 | 欧美一级网站| 亚洲老司机av| 欧美.www| 一区在线免费| 久久久久99| 欧美亚洲免费|