久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當前的位置: 首頁 > 新聞 > 其他

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

來源:量子位   編輯:非小米 時間:2024-04-04 19:00人閱讀

離大譜了,弱智吧登上正經AI論文,還成了最好的中文訓練數據??

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

具體來說,使用弱智吧數據訓練的大模型,跑分超過百科、知乎、豆瓣、小紅書等平臺,甚至是研究團隊精心挑選的數據集。

在問答、頭腦風暴、分類、生成、總結、提取等8項測試中取得最高分。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

沒錯,論文中的Ruozhiba就是指百度貼吧弱智吧,一個充滿荒謬、離奇、不合常理發言的中文社區,畫風通常是這樣的:

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

最離譜的是,弱智吧AI代碼能力也超過了使用專業技術問答社區思否數據訓練的AI。

這下吧友自己都鬧不明白了。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

其他平臺圍觀網友也紛紛蚌埠住。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

這項研究來自中科院深圳先進技術研究院、中科院自動化研究所,滑鐵盧大學等眾多高校、研究機構聯合團隊。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

作者之一也現身評論區,透露使用弱智吧數據訓練AI屬于靈機一動,以前只用來測試。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

弱智吧數據究竟如何達成這一成就,具體到論文中看。

【弱智發言成指令微調神器】

這項研究起初為解決中文大模型訓練中的諸多問題:

- 中文數據集很多是從英文翻譯過來的,沒有很好地契合中文的語言習慣和文化背景。

- 不少數據集是用AI生成的,質量難以保證,容易出現事實性錯誤。

- 即使是人工標注的數據集,也存在數據量小、覆蓋領域不全面等問題。

為了解決這些痛點,團隊從中文互聯網的各種知識源頭直接收集數據,比如知乎、豆瓣、百科、小紅書等,經過一系列嚴格的清洗和人工審核,打造成高質量、多樣化的中文指令微調數據集COIG-CQIA。

除了探索不同數據源的作用,團隊還專門從中抽取出一個精華子集CQIA-Subset。

在眾多數據來源中,弱智吧成了最特別的一個。

由500個點贊最高的帖子標題+人工或GPT-4的回復組成指令微調數據集, 經過人工審核后,最終留下了240組指令-回復數據對。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

分別用各種數據集訓練零一萬物Yi系列開源大模型,在BELLE-Eval測試集上使用GPT-4評分得到結果。

在規模較小的Yi-6B模型上,純弱智吧版本總分排名第三,還不算太突出。

看來小模型還沒能領悟弱智的精髓。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

到了Yi-34B,弱智吧版本表現就一騎絕塵了。

只有在改寫和數學任務上沒能取得最高分,但成績也比較靠前。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

另外,在安全評估上弱智吧版本也能排上第二。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

對于這類現象,研究人員在分析中也給出簡單猜測:

可能是弱智吧問題增強了AI的邏輯推理能力,從而使指令遵循任務受益。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

當然弱智吧并不是這項研究的全部,它的真正貢獻在于為中文大模型開發提供了一個高質量的指令微調數據集COIG-CQIA。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

通過對各種中文互聯網數據源的探索,這項研究為構建中文指令數據集提供了很多有益的啟示。比如社交媒體數據雖然開放多樣,但也存在不少有害信息風險;而百科類數據專業性強,但覆蓋面可能不夠廣。

【弱智吧上大分】

這項研究一發,網友集體笑不活。

除了“XSWL、思路開闊了”嬸兒的純圍觀,也有網友認真討論起了弱智吧有如此奇效的原因。

大伙兒都比較認可的一個原因是弱智吧題目的“異質”。

像腦筋急轉彎,增加了指令多樣性,所以提升了模型最終性能:

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

通用數據集多半已經在pretrain階段見過了,再訓一遍只會加重overfitting。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

另一個原因是弱智吧數據文本質量很高,用詞準確且簡潔。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

千言萬語匯成一句話:把弱智吧只當簡單的段子合集真的是嚴重低估了它的價值!

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

雀食,要不此前弱智吧問題也經常被大伙兒用來測試大模型呢。

事實上從ChatGPT誕生之初,弱智吧就深度參與了大模型的發展,可以算是這一波AI浪潮的重要見證者了。

一開始只是網友拿來拷打AI,搞搞節目效果。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

后來大家發現,弱智吧問題中充滿陷阱,剛好可以用來分辨AI能力高低。

還記得23年初那會兒,各家大模型第一版還不太能很好應對這類問題,如2023年3月的文心一言:

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

后續版本也漸入佳境了,如2023年8月的文心一言:

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

直到今天,弱智吧問題都是每個新發布大模型都必須要過的一關,被戲稱為弱智吧Benchmark。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一
△秘塔寫作貓

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一
△Inspo

再后來,AI公司們自己也開始重視起來,如百度官方就搞過聯動直播。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

當初網友為了調戲大模型專門搜集的弱智吧問題測試集,沒想到有一天也能搖身一變,成了訓練集。

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

思路確實是被打開了~

弱智吧竟成最佳中文AI訓練數據!中科院親自下場 8項第一

論文地址:https://arxiv.org/abs/2403.18058

參考鏈接:[1]https://x.com/9hills/status/1775358963724554410[2]https://zhuanlan.zhihu.com/p/690640864[3]https://tieba.baidu.com/p/8964992247

本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

相關文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
在线观看一区视频| 久久久久久久综合色一本| 欧美日本在线| 亚洲精品国产拍免费91在线| 亚洲成人直播| 欧美高清成人| 亚洲校园激情| 欧美一区二区播放| 亚洲第一天堂无码专区| 亚洲国产精品一区二区尤物区 | 久久免费高清| 久久一本综合频道| 一本色道久久88亚洲综合88| 中文在线资源观看网站视频免费不卡 | 日韩一区二区电影网| 在线视频精品一| 国产亚洲欧美日韩日本| 欧美成人国产一区二区| 欧美日韩ab| 久久精品视频网| 欧美激情91| 欧美中在线观看| 欧美www视频| 欧美一区二区三区视频免费播放 | 欧美日韩一区视频| 午夜国产精品影院在线观看| 久久久久9999亚洲精品| 99riav久久精品riav| 亚洲欧美日韩爽爽影院| 亚洲日本在线视频观看| 亚洲男人的天堂在线观看 | 欧美精品18videos性欧美| 亚洲欧美日韩在线观看a三区| 久久电影一区| 宅男噜噜噜66一区二区66| 久久久www成人免费精品| 一区二区不卡在线视频 午夜欧美不卡'| 亚洲调教视频在线观看| 在线观看日韩精品| 午夜精品福利在线| 日韩一区二区精品在线观看| 久久九九久久九九| 午夜精品福利在线| 欧美日韩成人综合| 欧美gay视频激情| 国产色产综合产在线视频| 亚洲乱码国产乱码精品精天堂| 精品不卡一区| 亚洲综合第一| 亚洲专区在线视频| 欧美日韩亚洲综合一区| 亚洲黄色一区| 亚洲国产精品一区二区www| 午夜视频久久久久久| 亚洲专区在线| 欧美偷拍一区二区| 亚洲最新合集| 中文久久精品| 欧美日韩免费看| 亚洲精品一品区二品区三品区| 亚洲春色另类小说| 免费观看成人| 欧美国产一区二区| 亚洲激情图片小说视频| 美女诱惑黄网站一区| 欧美国产欧美亚州国产日韩mv天天看完整| 国产美女精品一区二区三区 | 亚洲国产欧美国产综合一区| 亚洲第一黄色| 麻豆久久婷婷| 亚洲黑丝一区二区| 日韩视频免费| 欧美视频在线看| 这里是久久伊人| 午夜激情综合网| 国产精品一香蕉国产线看观看 | 欧美成人久久| 亚洲日韩欧美视频| 欧美日韩免费在线| 亚洲一级在线观看| 久久激情视频免费观看| 极品av少妇一区二区| 久久亚洲精品中文字幕冲田杏梨 | 夜夜嗨av一区二区三区中文字幕| 欧美激情综合五月色丁香| 久久精品国产久精国产思思| 男人的天堂亚洲| 亚洲精品1区| 亚洲午夜精品久久| 国产日本精品| 久久综合国产精品台湾中文娱乐网| 欧美护士18xxxxhd| 亚洲一区久久| 伊人久久大香线| 欧美精品999| 亚洲女爱视频在线| 欧美国产日本在线| 亚洲一区免费视频| 伊人久久男人天堂| 欧美人与禽性xxxxx杂性| 亚洲在线观看免费| 欧美国产精品va在线观看| 中日韩美女免费视频网址在线观看 | 欧美1级日本1级| 亚洲深夜福利在线| 欧美大片在线看| 亚洲欧美电影在线观看| 在线欧美福利| 国产精品视频久久久| 免费成人你懂的| 亚洲欧美在线免费观看| 亚洲激情视频| 久久午夜激情| 午夜免费日韩视频| 一本不卡影院| 1000精品久久久久久久久| 国产精品拍天天在线| 欧美不卡一区| 久久亚洲精品一区二区| 午夜精品成人在线视频| 在线视频亚洲| 亚洲欧洲在线看| 欧美成人午夜剧场免费观看| 欧美与黑人午夜性猛交久久久| 亚洲精品日本| 亚洲黄一区二区| 狠狠色综合日日| 国产日韩欧美中文| 国产精品免费观看在线| 欧美三级在线播放| 欧美啪啪一区| 欧美精品激情在线| 欧美激情乱人伦| 快she精品国产999| 久久性天堂网| 久久久人人人| 久久亚洲欧美国产精品乐播| 久久久久久一区| 午夜精品理论片| 性欧美1819sex性高清| 亚洲伊人观看| 先锋资源久久| 久久福利影视| 久久精品国语| 蜜桃av一区| 欧美a级理论片| 欧美激情在线免费观看| 欧美激情中文字幕在线| 欧美日韩一区二区三区在线看| 欧美日韩国产三级| 国产精品99一区| 国产精品女主播在线观看| 国产精品一区久久| 激情欧美一区| 亚洲国产欧美一区二区三区同亚洲| 1024成人网色www| 99视频在线精品国自产拍免费观看| 99视频一区二区| 亚洲一区二区在| 免费永久网站黄欧美| 欧美69视频| 日韩视频免费在线观看| 亚洲深夜av| 久久久国产一区二区三区| 欧美1区2区| 国产精品日韩欧美综合| 精品成人一区二区三区| 亚洲精品1区2区| 亚洲综合视频在线| 久久久福利视频| 亚洲激情在线观看| 亚洲一区二区三区中文字幕| 久久精品一本| 欧美区亚洲区| 国产色产综合色产在线视频| 亚洲国内精品| 欧美一区二区三区免费视频| 免费成人高清视频| 一本久久a久久精品亚洲| 欧美在线免费看| 欧美精品精品一区| 国产又爽又黄的激情精品视频| 亚洲人午夜精品免费| 欧美亚洲日本国产| 欧美国产视频一区二区| 亚洲一区在线视频| 欧美精品xxxxbbbb| 国内免费精品永久在线视频| 夜夜嗨av一区二区三区中文字幕| 久久久久国产精品一区三寸| 亚洲精品欧美专区| 老司机精品久久| 国产精品日韩久久久| 99精品欧美一区二区蜜桃免费| 久久久一区二区三区| 这里只有精品视频在线| 欧美精品久久久久久| 国内揄拍国内精品少妇国语| 午夜免费日韩视频| 日韩午夜视频在线观看|