久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當(dāng)前的位置: 首頁(yè) > 新聞 > 其他

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

來(lái)源:量子位   編輯:非小米 時(shí)間:2024-04-04 19:00人閱讀

離大譜了,弱智吧登上正經(jīng)AI論文,還成了最好的中文訓(xùn)練數(shù)據(jù)??

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

具體來(lái)說(shuō),使用弱智吧數(shù)據(jù)訓(xùn)練的大模型,跑分超過(guò)百科、知乎、豆瓣、小紅書(shū)等平臺(tái),甚至是研究團(tuán)隊(duì)精心挑選的數(shù)據(jù)集。

在問(wèn)答、頭腦風(fēng)暴、分類、生成、總結(jié)、提取等8項(xiàng)測(cè)試中取得最高分。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

沒(méi)錯(cuò),論文中的Ruozhiba就是指百度貼吧弱智吧,一個(gè)充滿荒謬、離奇、不合常理發(fā)言的中文社區(qū),畫(huà)風(fēng)通常是這樣的:

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

最離譜的是,弱智吧AI代碼能力也超過(guò)了使用專業(yè)技術(shù)問(wèn)答社區(qū)思否數(shù)據(jù)訓(xùn)練的AI。

這下吧友自己都鬧不明白了。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

其他平臺(tái)圍觀網(wǎng)友也紛紛蚌埠住。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

這項(xiàng)研究來(lái)自中科院深圳先進(jìn)技術(shù)研究院、中科院自動(dòng)化研究所,滑鐵盧大學(xué)等眾多高校、研究機(jī)構(gòu)聯(lián)合團(tuán)隊(duì)。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

作者之一也現(xiàn)身評(píng)論區(qū),透露使用弱智吧數(shù)據(jù)訓(xùn)練AI屬于靈機(jī)一動(dòng),以前只用來(lái)測(cè)試。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

弱智吧數(shù)據(jù)究竟如何達(dá)成這一成就,具體到論文中看。

【弱智發(fā)言成指令微調(diào)神器】

這項(xiàng)研究起初為解決中文大模型訓(xùn)練中的諸多問(wèn)題:

- 中文數(shù)據(jù)集很多是從英文翻譯過(guò)來(lái)的,沒(méi)有很好地契合中文的語(yǔ)言習(xí)慣和文化背景。

- 不少數(shù)據(jù)集是用AI生成的,質(zhì)量難以保證,容易出現(xiàn)事實(shí)性錯(cuò)誤。

- 即使是人工標(biāo)注的數(shù)據(jù)集,也存在數(shù)據(jù)量小、覆蓋領(lǐng)域不全面等問(wèn)題。

為了解決這些痛點(diǎn),團(tuán)隊(duì)從中文互聯(lián)網(wǎng)的各種知識(shí)源頭直接收集數(shù)據(jù),比如知乎、豆瓣、百科、小紅書(shū)等,經(jīng)過(guò)一系列嚴(yán)格的清洗和人工審核,打造成高質(zhì)量、多樣化的中文指令微調(diào)數(shù)據(jù)集COIG-CQIA。

除了探索不同數(shù)據(jù)源的作用,團(tuán)隊(duì)還專門(mén)從中抽取出一個(gè)精華子集CQIA-Subset。

在眾多數(shù)據(jù)來(lái)源中,弱智吧成了最特別的一個(gè)。

由500個(gè)點(diǎn)贊最高的帖子標(biāo)題+人工或GPT-4的回復(fù)組成指令微調(diào)數(shù)據(jù)集, 經(jīng)過(guò)人工審核后,最終留下了240組指令-回復(fù)數(shù)據(jù)對(duì)。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

分別用各種數(shù)據(jù)集訓(xùn)練零一萬(wàn)物Yi系列開(kāi)源大模型,在BELLE-Eval測(cè)試集上使用GPT-4評(píng)分得到結(jié)果。

在規(guī)模較小的Yi-6B模型上,純?nèi)踔前砂姹究偡峙琶谌€不算太突出。

看來(lái)小模型還沒(méi)能領(lǐng)悟弱智的精髓。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

到了Yi-34B,弱智吧版本表現(xiàn)就一騎絕塵了。

只有在改寫(xiě)和數(shù)學(xué)任務(wù)上沒(méi)能取得最高分,但成績(jī)也比較靠前。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

另外,在安全評(píng)估上弱智吧版本也能排上第二。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

對(duì)于這類現(xiàn)象,研究人員在分析中也給出簡(jiǎn)單猜測(cè):

可能是弱智吧問(wèn)題增強(qiáng)了AI的邏輯推理能力,從而使指令遵循任務(wù)受益。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

當(dāng)然弱智吧并不是這項(xiàng)研究的全部,它的真正貢獻(xiàn)在于為中文大模型開(kāi)發(fā)提供了一個(gè)高質(zhì)量的指令微調(diào)數(shù)據(jù)集COIG-CQIA。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

通過(guò)對(duì)各種中文互聯(lián)網(wǎng)數(shù)據(jù)源的探索,這項(xiàng)研究為構(gòu)建中文指令數(shù)據(jù)集提供了很多有益的啟示。比如社交媒體數(shù)據(jù)雖然開(kāi)放多樣,但也存在不少有害信息風(fēng)險(xiǎn);而百科類數(shù)據(jù)專業(yè)性強(qiáng),但覆蓋面可能不夠廣。

【弱智吧上大分】

這項(xiàng)研究一發(fā),網(wǎng)友集體笑不活。

除了“XSWL、思路開(kāi)闊了”嬸兒的純圍觀,也有網(wǎng)友認(rèn)真討論起了弱智吧有如此奇效的原因。

大伙兒都比較認(rèn)可的一個(gè)原因是弱智吧題目的“異質(zhì)”。

像腦筋急轉(zhuǎn)彎,增加了指令多樣性,所以提升了模型最終性能:

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

通用數(shù)據(jù)集多半已經(jīng)在pretrain階段見(jiàn)過(guò)了,再訓(xùn)一遍只會(huì)加重overfitting。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

另一個(gè)原因是弱智吧數(shù)據(jù)文本質(zhì)量很高,用詞準(zhǔn)確且簡(jiǎn)潔。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

千言萬(wàn)語(yǔ)匯成一句話:把弱智吧只當(dāng)簡(jiǎn)單的段子合集真的是嚴(yán)重低估了它的價(jià)值!

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

雀食,要不此前弱智吧問(wèn)題也經(jīng)常被大伙兒用來(lái)測(cè)試大模型呢。

事實(shí)上從ChatGPT誕生之初,弱智吧就深度參與了大模型的發(fā)展,可以算是這一波AI浪潮的重要見(jiàn)證者了。

一開(kāi)始只是網(wǎng)友拿來(lái)拷打AI,搞搞節(jié)目效果。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

后來(lái)大家發(fā)現(xiàn),弱智吧問(wèn)題中充滿陷阱,剛好可以用來(lái)分辨AI能力高低。

還記得23年初那會(huì)兒,各家大模型第一版還不太能很好應(yīng)對(duì)這類問(wèn)題,如2023年3月的文心一言:

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

后續(xù)版本也漸入佳境了,如2023年8月的文心一言:

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

直到今天,弱智吧問(wèn)題都是每個(gè)新發(fā)布大模型都必須要過(guò)的一關(guān),被戲稱為弱智吧Benchmark。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一
△秘塔寫(xiě)作貓

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一
△Inspo

再后來(lái),AI公司們自己也開(kāi)始重視起來(lái),如百度官方就搞過(guò)聯(lián)動(dòng)直播。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

當(dāng)初網(wǎng)友為了調(diào)戲大模型專門(mén)搜集的弱智吧問(wèn)題測(cè)試集,沒(méi)想到有一天也能搖身一變,成了訓(xùn)練集。

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

思路確實(shí)是被打開(kāi)了~

弱智吧竟成最佳中文AI訓(xùn)練數(shù)據(jù)!中科院親自下場(chǎng) 8項(xiàng)第一

論文地址:https://arxiv.org/abs/2403.18058

參考鏈接:[1]https://x.com/9hills/status/1775358963724554410[2]https://zhuanlan.zhihu.com/p/690640864[3]https://tieba.baidu.com/p/8964992247

本站所有文章、數(shù)據(jù)、圖片均來(lái)自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請(qǐng)來(lái)信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: 人工智能 百度貼吧

相關(guān)文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
午夜精品福利一区二区三区av | 在线中文字幕不卡| 午夜在线电影亚洲一区| 亚洲精品综合| 蜜乳av另类精品一区二区| 欧美一区二区大片| 欧美三级视频在线播放| 亚洲福利视频三区| 国语对白精品一区二区| 亚洲一区二区三区精品在线| 日韩亚洲视频在线| 女人天堂亚洲aⅴ在线观看| 老司机免费视频一区二区三区 | 亚洲激情午夜| 久久精品中文字幕一区| 欧美一区二区三区免费在线看| 欧美日韩一区二区三区视频| 亚洲第一福利在线观看| 亚洲国产专区| 免费看亚洲片| 亚洲三级国产| 一本色道久久综合狠狠躁篇的优点| 久久综合一区二区| 欧美夫妇交换俱乐部在线观看| 一区二区三区在线视频播放| 欧美中文字幕在线播放| 久久婷婷人人澡人人喊人人爽| 国产美女诱惑一区二区| 香蕉成人久久| 久久亚洲国产成人| 亚洲品质自拍| 欧美精品在线看| av成人福利| 欧美一进一出视频| 精品二区视频| 欧美gay视频激情| 9久re热视频在线精品| 亚洲香蕉网站| 国产视频在线观看一区| 久久福利影视| 亚洲国产日韩欧美一区二区三区| 99视频精品| 国产精品入口尤物| 久久久999成人| 亚洲国产精品综合| 亚洲视频久久| 国产亚洲精品bt天堂精选| 久久婷婷一区| 99国产精品久久久久老师 | 久久精品1区| 在线观看成人av电影| 牛牛精品成人免费视频| 99日韩精品| 老司机67194精品线观看| 亚洲日本欧美天堂| 国产精品美女一区二区| 久久亚洲午夜电影| 99国产精品视频免费观看| 久久国产黑丝| 亚洲最新在线视频| 国内精品一区二区| 欧美激情视频给我| 欧美一区二视频| 亚洲激情社区| 久久婷婷av| 亚洲男同1069视频| 亚洲国产精品一区二区尤物区| 欧美日韩综合视频网址| 久久久精品欧美丰满| 一区二区三区产品免费精品久久75| 久久99伊人| 亚洲性xxxx| 91久久亚洲| 狠狠综合久久av一区二区小说| 欧美日韩不卡在线| 麻豆免费精品视频| 午夜在线精品偷拍| aa国产精品| 亚洲国产日韩欧美在线动漫| 久久九九精品| 午夜精品影院在线观看| 亚洲精品小视频在线观看| 国语自产精品视频在线看抢先版结局| 欧美日韩国产综合视频在线| 久久五月激情| 久久久久久久久久久久久女国产乱 | 亚洲欧美国产高清| 亚洲乱码国产乱码精品精| 免费不卡亚洲欧美| 久久精品国产99国产精品| 亚洲在线播放电影| 亚洲六月丁香色婷婷综合久久| 黑人操亚洲美女惩罚| 国产女优一区| 国产精品综合久久久| 欧美色图五月天| 欧美破处大片在线视频| 蜜臀99久久精品久久久久久软件 | 老司机成人网| 久久久久久9999| 久久精品综合| 久久精精品视频| 久久黄金**| 久久精品国产亚洲一区二区三区| 亚洲欧美成人精品| 亚洲免费中文| 欧美一区二区三区四区夜夜大片| 亚洲免费影视第一页| 午夜精品久久久久久久蜜桃app | 国产精品亚洲成人| 国产精品剧情在线亚洲| 国产精品女主播一区二区三区| 国产精品久99| 国产区精品在线观看| 国产女精品视频网站免费| 国产日本欧洲亚洲| 一区二区三区在线视频播放| 国外成人在线| 亚洲三级免费电影| 一区二区三区毛片| 亚洲欧美日韩成人| 久久精品道一区二区三区| 久久久精品国产免费观看同学| 久久国产夜色精品鲁鲁99| 久久久精品性| 欧美成人精品高清在线播放| 亚洲国产精品ⅴa在线观看| 亚洲三级影院| 亚洲小说春色综合另类电影| 性8sex亚洲区入口| 久热国产精品| 国产精品xxxxx| 韩国一区电影| 亚洲免费高清视频| 欧美一区二区在线免费观看| 久久琪琪电影院| 亚洲开发第一视频在线播放| 亚洲网站视频| 狼人社综合社区| 国产精品久久久久久超碰| 国产一区二区三区奇米久涩| 亚洲国产欧美在线| 午夜精品999| 欧美国产综合| 亚洲一区二区三区中文字幕| 裸体歌舞表演一区二区| 欧美日韩精品免费在线观看视频| 国产免费一区二区三区香蕉精| 亚洲第一天堂av| 亚洲欧美综合国产精品一区| 美女诱惑黄网站一区| 99精品国产在热久久婷婷| 欧美一区二区在线看| 欧美人与性禽动交情品 | 亚洲深夜av| 美女久久一区| 亚洲视频一区二区| 欧美成人蜜桃| 韩国女主播一区二区三区| 亚洲性图久久| 亚洲大胆人体在线| 欧美一区二区三区日韩| 欧美精品综合| 亚洲国产日日夜夜| 久久精品视频播放| 亚洲小视频在线观看| 欧美国产视频一区二区| 国产亚洲精品一区二区| 亚洲一区在线看| 亚洲精品1区2区| 久久久久久久999| 国产欧美日韩视频| 亚洲免费在线观看视频| 亚洲激情一区二区三区| 久久久久在线| 国产亚洲欧美一级| 亚洲欧美日韩一区二区在线| 亚洲美女av黄| 欧美女同视频| 一本久久综合亚洲鲁鲁| 欧美激情一区二区三区四区| 欧美在线日韩精品| 国产麻豆9l精品三级站| 中日韩在线视频| 亚洲毛片一区二区| 欧美日韩mp4| 亚洲视频电影图片偷拍一区| 亚洲欧洲免费视频| 男女视频一区二区| 亚洲欧洲精品一区二区精品久久久 | 久久在线免费| 亚洲电影av| 亚洲国产精品va在线看黑人| 久久综合给合| 亚洲精品国产精品国自产在线| 嫩模写真一区二区三区三州| 久久久久久久久久久一区| 影音先锋成人资源站| 欧美电影免费观看| 欧美成人中文字幕|