久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當前的位置: 首頁 > 新聞 > 其他

新測試基準發布 最強開源Llama 3尷尬了

來源:量子位   編輯:非小米 時間:2024-04-23 08:06人閱讀

如果試題太簡單,學霸和學渣都能考90分,拉不開差距……

隨著Claude 3、Llama 3甚至之后GPT-5等更強模型發布,業界急需一款更難、更有區分度的基準測試。

大模型競技場背后組織LMSYS推出下一代基準測試Arena-Hard,引起廣泛關注。

Llama 3的兩個指令微調版本實力到底如何,也有了最新參考。

新測試基準發布 最強開源Llama 3尷尬了

與之前大家分數都相近的MT Bench相比,Arena-Hard區分度從22.6%提升到87.4%,孰強孰弱一目了然。

Arena-Hard利用競技場實時人類數據構建,與人類偏好一致率也高達89.1%。

除了上面兩個指標都達到SOTA之外,還有一個額外的好處:

實時更新的測試數據包含人類新想出的、AI在訓練階段從未見過的提示詞,減輕潛在的數據泄露。

并且新模型發布后,無需再等待一周左右時間讓人類用戶參與投票,只需花費25美元快速運行測試管線,即可得到結果。

有網友評價,使用真實用戶提示詞而不是高中考試來測試,真的很重要。

新測試基準發布 最強開源Llama 3尷尬了

新基準測試如何運作?

簡單來說,通過大模型競技場20萬個用戶查詢中,挑選500個高質量提示詞作為測試集。

首先,挑選過程中確保多樣性,也就是測試集應涵蓋廣泛的現實世界話題。

為了確保這一點,團隊采用BERTopic中主題建模管道,首先使用OpenAI的嵌入模型(text-embedding-3-small)轉換每個提示,使用 UMAP 降低維度,并使用基于層次結構的模型聚類算法 (HDBSCAN) 來識別聚類,最后使用GPT-4-turbo進行匯總。

新測試基準發布 最強開源Llama 3尷尬了

同時確保入選的提示詞具有高質量,有七個關鍵指標來衡量:

-具體性:提示詞是否要求特定的輸出?

-領域知識:提示詞是否涵蓋一個或多個特定領域?

-復雜性:提示詞是否有多層推理、組成部分或變量?

-解決問題:提示詞是否直接讓AI展示主動解決問題的能力?

-創造力:提示詞是否涉及解決問題的一定程度的創造力?

-技術準確性:提示詞是否要求響應具有技術準確性?

-實際應用:提示詞是否與實際應用相關?

新測試基準發布 最強開源Llama 3尷尬了

使用GPT-3.5-Turbo和GPT-4-Turbo對每個提示進行從 0 到 7 的注釋,判斷滿足多少個條件。然后根據提示的平均得分給每個聚類評分。

高質量的問題通常與有挑戰性的話題或任務相關,比如游戲開發或數學證明。

新測試基準發布 最強開源Llama 3尷尬了

新基準測試準嗎?

Arena-Hard目前還有一個弱點:使用GPT-4做裁判更偏好自己的輸出。官方也給出了相應提示。

可以看出,最新兩個版本的GPT-4分數高過Claude 3 Opus一大截,但在人類投票分數中差距并沒有那么明顯。

新測試基準發布 最強開源Llama 3尷尬了

其實關于這一點,最近已經有研究論證,前沿模型都會偏好自己的輸出。

新測試基準發布 最強開源Llama 3尷尬了

研究團隊還發現,AI天生就可以判斷出一段文字是不是自己寫的,經過微調后自我識別的能力還能增強,并且自我識別能力與自我偏好線性相關。

新測試基準發布 最強開源Llama 3尷尬了

那么使用Claude 3來打分會使結果產生什么變化?LMSYS也做了相關實驗。

首先,Claude系列的分數確實會提高。

新測試基準發布 最強開源Llama 3尷尬了

但令人驚訝的是,它更喜歡幾種開放模型如Mixtral和零一萬物Yi,甚至對GPT-3.5的評分都有明顯提高。

總體而言,使用Claude 3打分的區分度和與人類結果的一致性都不如GPT-4。

新測試基準發布 最強開源Llama 3尷尬了

所以也有很多網友建議,使用多個大模型來綜合打分。

新測試基準發布 最強開源Llama 3尷尬了

除此之外,團隊還做了更多消融實驗來驗證新基準測試的有效性。

比如在提示詞中加入“讓答案盡可能詳盡”,平均輸出長度更高,分數確實會提高。

但把提示詞換成“喜歡閑聊”,平均輸出長度也有提高,但分數提升就不明顯。

新測試基準發布 最強開源Llama 3尷尬了

此外在實驗過程中還有很多有意思的發現。

比如GPT-4來打分非常嚴格,如果回答中有錯誤會狠狠扣分;而Claude 3即使識別出小錯誤也會寬大處理。

對于代碼問題,Claude 3傾向于提供簡單結構、不依賴外部代碼庫,能幫助人類學習編程的答案;而GPT-4-Turbo更傾向最實用的答案,不管其教育價值如何。

另外即使設置溫度為0,GPT-4-Turbo也可能產生略有不同的判斷。

從層次結構可視化的前64個聚類中也可以看出,大模型競技場用戶的提問質量和多樣性確實是高。

新測試基準發布 最強開源Llama 3尷尬了

這里面也許就有你的貢獻。

Arena-Hard GitHub:

https://github.com/lm-sys/arena-hard

Arena-Hard HuggingFace:

https://huggingface.co/spaces/lmsys/arena-hard-browser

大模型競技場:

https://arena.lmsys.org

參考鏈接:

[1]https://x.com/lmsysorg/status/1782179997622649330

[2]https://lmsys.org/blog/2024-04-19-arena-hard/

本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

標簽: 測試 性能測試

相關文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
欧美激情综合色| 久热国产精品视频| 99ri日韩精品视频| 欧美日韩一区二区三区在线视频 | 亚洲精品一二三区| 最新69国产成人精品视频免费| 免费观看国产成人| 一本色道久久88精品综合| 亚洲一区二区av电影| 国产亚洲人成a一在线v站| 老**午夜毛片一区二区三区| 欧美刺激午夜性久久久久久久| 在线亚洲高清视频| 午夜免费日韩视频| 亚洲激情成人网| 亚洲一区二区三区在线观看视频| 怡红院av一区二区三区| 亚洲精品免费一二三区| 国产精品腿扒开做爽爽爽挤奶网站| 久久理论片午夜琪琪电影网| 欧美精品日韩综合在线| 欧美在线观看一二区| 免费成人激情视频| 欧美一区二区精美| 欧美精品三级日韩久久| 久久精品在线免费观看| 欧美日本韩国| 欧美成人久久| 国产欧美亚洲一区| 亚洲毛片在线看| 欧美一区二区三区在线观看| 999在线观看精品免费不卡网站| 先锋影院在线亚洲| 亚洲五月六月| 欧美大学生性色视频| 久久久999精品| 欧美四级电影网站| 91久久嫩草影院一区二区| 国内精品嫩模av私拍在线观看| 亚洲人成小说网站色在线| 极品日韩久久| 午夜一区在线| 亚洲欧美日韩一区二区在线| 欧美精品午夜| 亚洲黄色精品| 亚洲黄色一区| 毛片基地黄久久久久久天堂| 久久久精品网| 国产午夜精品美女视频明星a级| 一本久久青青| 亚洲天堂免费在线观看视频| 欧美大片免费观看| 欧美国产视频在线观看| 在线精品国产成人综合| 久久精彩视频| 狂野欧美激情性xxxx| 国产中文一区二区| 久久精品二区三区| 久久久久九九视频| 一色屋精品视频在线看| 久久精品国产精品| 久久亚洲一区二区三区四区| 国语自产精品视频在线看8查询8 | 亚洲国产老妈| 亚洲国产精品热久久| 久热国产精品| 91久久极品少妇xxxxⅹ软件| 日韩视频在线永久播放| 欧美日本视频在线| 亚洲视频精品| 久久成人资源| 尤物在线精品| 欧美福利小视频| 艳妇臀荡乳欲伦亚洲一区| 亚洲欧美韩国| 国产亚洲一区二区三区在线观看 | 亚洲少妇诱惑| 久久久久久综合网天天| 亚洲成色www8888| 久久影院午夜片一区| 91久久国产自产拍夜夜嗨| 亚洲视频欧洲视频| 国产亚洲精品一区二555| 久久久久国产精品人| 亚洲欧洲一区二区在线播放| 亚洲综合日韩| 极品日韩久久| 欧美日韩免费观看一区二区三区| 亚洲午夜精品久久| 蜜臀久久99精品久久久画质超高清 | 媚黑女一区二区| 日韩视频不卡中文| 久久免费黄色| 一本一本a久久| 久久亚洲综合色| 亚洲国产欧美一区| 香蕉成人啪国产精品视频综合网| 狠狠色丁香婷婷综合久久片| 欧美激情一级片一区二区| 亚洲在线中文字幕| 亚洲第一伊人| 欧美在线999| 亚洲免费高清视频| 国产欧美日韩视频在线观看| 欧美成人免费va影院高清| 亚洲欧美国产精品va在线观看| 免费观看成人鲁鲁鲁鲁鲁视频| 亚洲一区二区三区精品视频 | 久久精品观看| 一区二区欧美激情| 亚洲国产精品久久| 久久综合一区| 欧美一区二区三区免费看| 亚洲理论在线| 亚洲大胆美女视频| 国产亚洲激情视频在线| 国产精品大片wwwwww| 欧美成人tv| 久久五月天婷婷| 亚洲欧美另类国产| 一区二区动漫| 亚洲精品乱码视频| 亚洲国产另类 国产精品国产免费| 久久精品免费观看| 午夜在线视频观看日韩17c| 一区二区精品国产| 亚洲美女视频在线观看| 亚洲成在人线av| 狠狠爱综合网| 国外成人性视频| 国内精品模特av私拍在线观看| 国产欧美一级| 国产精品五月天| 国产精品日韩| 国产欧美日韩精品丝袜高跟鞋| 国产精品嫩草99av在线| 国产精品日日摸夜夜添夜夜av| 国产精品二区二区三区| 欧美日韩欧美一区二区| 欧美日韩一区二区在线视频| 欧美日韩综合在线免费观看| 欧美日韩情趣电影| 国产精品v片在线观看不卡| 欧美体内she精视频在线观看| 欧美日韩黄色大片| 国产精品久久久免费| 国产精品一二三| 国产亚洲精品福利| 黄色精品在线看| 亚洲激情六月丁香| 99国产精品国产精品久久| 亚洲一区精品电影| 久久不见久久见免费视频1| 久久久久久9| 亚洲国产毛片完整版| 日韩视频免费观看| 亚洲免费影视第一页| 久久久久久九九九九| 欧美aa在线视频| 国产精品国产自产拍高清av王其| 国产精品一区二区三区久久| 国产综合视频| 99热免费精品| 欧美在线看片a免费观看| 免费国产自线拍一欧美视频| 亚洲国产三级| 午夜日本精品| 欧美第十八页| 国产欧美综合一区二区三区| 最近看过的日韩成人| 午夜精品国产更新| 欧美超级免费视 在线| 欧美在线三区| 国产亚洲精品激情久久| 亚洲免费观看高清完整版在线观看熊 | 国产日本欧美在线观看| 亚洲国产精品视频一区| 亚洲一区二区欧美日韩| 老鸭窝亚洲一区二区三区| 亚洲精品在线视频| 久久久99免费视频| 国产精品福利片| 亚洲国产精品视频| 久久国产精品毛片| 亚洲日本va午夜在线影院| 欧美一级二级三级蜜桃| 欧美精品一区二区视频| 黑人中文字幕一区二区三区| 亚洲一二三区精品| 欧美国产在线电影| 欧美亚洲三区| 国产精品成人在线观看| 亚洲美女电影在线| 免费精品视频| 午夜日韩av| 国产精品私人影院| 一个人看的www久久| 欧美电影免费观看高清| 欧美主播一区二区三区美女 久久精品人 | 亚洲第一色在线|