久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當(dāng)前的位置: 首頁 > 新聞 > 其他

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

來源:品玩網(wǎng)   編輯:非小米 時間:2023-09-11 19:51人閱讀

似乎自ChatGPT進入大眾視野起,需要依靠人工進行數(shù)據(jù)標(biāo)注,就成為人們對大語言模型(LLM)根深蒂固的印象之一。

從兩個以上大模型針對同一個問題給出的不同回答里,找到當(dāng)中的語病、邏輯和事實錯誤,標(biāo)記不同的錯誤類型,再對這些回答按照質(zhì)量分別進行打分等,這些都是大模型數(shù)據(jù)標(biāo)注員要干的事情。

這個過程被叫做RLHF(Reinforcement Learning from Human Feedback),即基于人類反饋的強化學(xué)習(xí)。RLHF也是被ChatGPT、Bard和LLaMA等新興大模型帶火的模型訓(xùn)練方法,它最大的好處就在于能夠?qū)⒛P秃腿祟惖钠脤R,讓大模型給出更符合人類表達習(xí)慣的回答。

不過最近發(fā)布在arXiv的一份論文表明,這份看起來只有人類能做的工作,也能被AI取代!

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

AI也取代了RLHF中的“H”,誕生了一種叫做“RLAIF”的訓(xùn)練方法。

這份由谷歌研究團隊發(fā)布的論文顯示,RLAIF能夠在不依賴數(shù)據(jù)標(biāo)注員的情況下,表現(xiàn)出能夠與RLHF相媲美的訓(xùn)練結(jié)果——

如果拿傳統(tǒng)的監(jiān)督微調(diào)(SFT)訓(xùn)練方法作為基線比較,比起SFT,1200個真人“評委”對RLHF和RLAIF給出答案的滿意度都超過了70%(兩者差距只有2%);另外,如果只比較RLHF和RLAIF給出的答案,真人評委們對兩者的滿意度也是對半分。

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

這里的“勝率”體現(xiàn)了文中的“滿意度”

需要說明的是,谷歌的這篇論文也是第一個證明了RLAIF在某些任務(wù)上能夠產(chǎn)生與RLHF相當(dāng)?shù)挠?xùn)練效果的研究。

最早提出讓AI反饋代替人類反饋用于強化學(xué)習(xí)訓(xùn)練的研究,是來自2022年Bai et al. 發(fā)布的一篇論文。這篇論文也首次提出了RLAIF的概念,并發(fā)現(xiàn)了AI標(biāo)注的“天賦”,不過研究者在當(dāng)時還并沒有將人類反饋和AI反饋結(jié)果進行直接比較。

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

總之谷歌的這一研究成果一旦被更多人接受,將意味著不用人類指點,AI也能訓(xùn)練自己的同類了。

下面可以來看看RLAIF具體是怎么做的。

我們知道,RLHF的方法大致可以分為三個步驟:預(yù)訓(xùn)練一個監(jiān)督微調(diào)LLM,收集數(shù)據(jù)訓(xùn)練一個獎勵模型(RM),以及用強化學(xué)習(xí)(RL)方式微調(diào)模型。

從論文給出的圖示看,AI和人類標(biāo)注員發(fā)揮作用的環(huán)節(jié),主要是在訓(xùn)練獎勵模型(RM)并生成反饋內(nèi)容這里。你可以把“獎勵”理解為,讓人/AI來告訴模型哪種回答更好,答得更好就能有更多獎勵(所以也能理解人工標(biāo)注存在的必要)。

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

接著研究人員主要就“根據(jù)一段文字生成摘要”這一任務(wù),展示了RLAIF的標(biāo)記方法。

下面的表格比較完整地展示了RLAIF方法的輸入結(jié)構(gòu):

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

首先是序言(Preamble),用來介紹和描述手頭任務(wù)的說明。比如描述說,好的摘要是一段較短的文字,具有原文的精髓…給定一段文本和兩個可能的摘要,輸出1或2來指示哪個摘要最符合上述定義的連貫性、準確性、覆蓋范圍和整體質(zhì)量。

其次是樣本示例(1-Shot Exemplar)。比如給到一段“我們曾是超過四年的好朋友……”的文本,接著給到兩個摘要,以及“摘要1更好”的偏好判斷,讓AI學(xué)著這個示例對接下來的樣本做標(biāo)注。

再者就是給出所要標(biāo)注的樣本(Sample to Annotate),包括一段文本和一對需要標(biāo)記的摘要。

最后是結(jié)尾,用于提示模型的結(jié)束字符串。

論文介紹到,為了讓RLAIF方法中AI標(biāo)注更準確,研究者也加入了其他方法以獲取更好的回答。譬如為了避免隨機性問題,會進行多次選擇,其間還會對選項的順序進行交換;此外還用到了思維鏈(CoT)推理,來進一步提升與人類偏好的對齊程度。

從原始prompt到輸出的完整流程如下圖所示:

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

能看到,就像人類標(biāo)注員會給不同的回答打分一樣(比如滿分5分),AI也會依據(jù)偏好給每個摘要打分,相加起來是1分。所以這個分數(shù)就可以理解為上文提到的獎勵。

以上就是RLAIF方法大致會經(jīng)歷的過程。

而在評價RLAIF方法的訓(xùn)練結(jié)果到底好不好時,研究人員使用了三個評估指標(biāo),分別是AI標(biāo)簽對齊度(AI Labeler Alignment)、配對準確度(Pairwise Accuracy)和勝率(Win Rate)。

簡單理解三個指標(biāo),AI標(biāo)簽對齊度指的就是AI偏好相對于人類偏好的精確程度,配對準確度指訓(xùn)練好的獎勵模型與人類偏好數(shù)據(jù)集的匹配程度,勝率則是人類在RLAIF和RLHF生成結(jié)果之間的傾向性。

研究人員在依據(jù)評估指標(biāo)進行了繁雜的計算之后,最終得出了RLAIF和RLHF“打平手”的結(jié)論。

當(dāng)然也有一些非量化的定性分析。譬如研究發(fā)現(xiàn),RLAIF似乎比RLHF更不容易出現(xiàn)“幻覺”,下表所示幾個例子中標(biāo)紅部分便是RLHF的幻覺,盡管看上去是合理的:

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

而在另一些例子里,RLAIF的語法表現(xiàn)似乎又比RLHF差不少(標(biāo)紅為RLAIF的語法問題):

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

盡管如此,RLAIF和RLHF整體來說生成高質(zhì)量摘要的能力還是旗鼓相當(dāng)?shù)摹?/p>

該論文的發(fā)布很快收獲了不少關(guān)注。比如有從業(yè)者評論道,等到GPT-5可能就不需要人類數(shù)據(jù)標(biāo)注員了。

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

也有網(wǎng)友貼圖打趣,用AI來訓(xùn)練同類的做法就好比是這張梗圖。

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

不過針對谷歌這篇論文中用到的研究方法,身為著名軟件工程師、AI專家的Evan Saravia也認為,研究人員只在論文中分析了RLAIF和RLHF在“生成摘要”這一任務(wù)上的表現(xiàn),其他更加泛化的任務(wù)表現(xiàn)如何還有待觀察。

此外,研究人員也沒有將人工標(biāo)注和使用AI成本的因素考慮在內(nèi)。

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

其實以上網(wǎng)友預(yù)測未來的大模型將不再需要人類標(biāo)注員,也側(cè)面體現(xiàn)出目前RLHF方法因為過于依賴人工而遇到的瓶頸:大規(guī)模高質(zhì)量的人類標(biāo)注數(shù)據(jù)可能會非常難以獲取——

大模型數(shù)據(jù)標(biāo)注員往往是流動性非常高的工種,并且由于數(shù)據(jù)標(biāo)注很多時候非常依賴標(biāo)注員的主觀偏好,也就更加考驗標(biāo)注員的自身素質(zhì)。

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

短期內(nèi)也許會像這位從業(yè)者說的,“我不會說這(RLAIF)降低了人工標(biāo)注的重要性,但有一點可以肯定,人工智能反饋的RL可以降低成本。人工標(biāo)注對于泛化仍然極其重要,而RLHF+RLAIF混合方法比任何單一方法都要好。”

數(shù)據(jù)標(biāo)注員什么時候會被AI替代?谷歌:現(xiàn)在就行

本站所有文章、數(shù)據(jù)、圖片均來自互聯(lián)網(wǎng),一切版權(quán)均歸源網(wǎng)站或源作者所有。

如果侵犯了你的權(quán)益請來信告知我們刪除。郵箱:business@qudong.com

標(biāo)簽: Google

相關(guān)文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
欧美顶级艳妇交换群宴| 美日韩免费视频| 亚洲美女色禁图| 久久精品盗摄| 国产午夜亚洲精品理论片色戒| 一区二区三区回区在观看免费视频| 久久综合亚洲社区| 欧美伊人久久| 国产亚洲精品资源在线26u| 午夜精品久久久久久久久| 欧美va亚洲va日韩∨a综合色| 午夜在线电影亚洲一区| 国产精品系列在线播放| 亚洲欧美国产另类| 一区二区三区 在线观看视频| 亚洲综合日韩| 亚洲激情在线激情| 亚洲二区在线| 欧美国产日韩一区二区在线观看| 日韩一级成人av| 日韩午夜在线观看视频| 国产精品爱啪在线线免费观看| 亚洲视频一区二区| 亚洲激情国产精品| 国产精品videosex极品| 一区二区三区国产在线| 亚洲免费在线观看视频| 国内欧美视频一区二区| 欧美电影免费观看高清| 欧美日韩国产高清视频| 小黄鸭精品aⅴ导航网站入口| 午夜久久黄色| 亚洲精品少妇| 亚洲精品视频一区| 国产美女精品人人做人人爽| 久久一区免费| 欧美日韩精品免费观看| 久久精品国产清自在天天线| 久久久噜噜噜久久中文字幕色伊伊 | 亚洲精品社区| 在线一区二区三区做爰视频网站| 国产在线精品一区二区中文| 久久久久久亚洲精品杨幂换脸 | 一本色道久久综合亚洲91| 亚洲桃色在线一区| 一区二区视频免费完整版观看| 亚洲国产成人久久综合| 国产伦精品一区二区三区照片91 | 性欧美办公室18xxxxhd| 亚洲欧洲视频在线| 亚洲综合首页| 在线视频中文亚洲| 久久只精品国产| 亚洲系列中文字幕| 蜜桃av一区二区在线观看| 午夜精品久久久久久久99樱桃| 久久久噜噜噜久久狠狠50岁| 亚洲国语精品自产拍在线观看| 亚洲一区二区三区国产| 亚洲精选在线观看| 亚洲欧美精品| 亚洲一区在线免费| 欧美激情亚洲精品| 中日韩美女免费视频网址在线观看| 午夜精品免费| 国产精品久久久一区麻豆最新章节 | 久久不射2019中文字幕| 午夜久久久久| 国产女主播在线一区二区| 亚洲午夜激情网页| 亚洲小说春色综合另类电影| 欧美色大人视频| 亚洲一区二区三区涩| 欧美一区国产二区| 韩日视频一区| 蜜桃av噜噜一区| 亚洲乱码国产乱码精品精天堂 | 亚洲日本激情| 欧美日韩精品在线播放| 亚洲桃花岛网站| 玖玖玖国产精品| 亚洲人久久久| 国产精品色婷婷久久58| 欧美在线视频观看| 亚洲国产精品电影| 一区二区成人精品| 国产日韩一区| 欧美α欧美αv大片| 一本色道久久88精品综合| 欧美有码视频| 亚洲国产欧美在线| 欧美视频亚洲视频| 久久电影一区| 亚洲伦伦在线| 久久精品一区二区三区不卡| 亚洲高清免费| 国产精品系列在线| 欧美激情亚洲自拍| 午夜精品999| 91久久久久久国产精品| 久久精品亚洲| 亚洲深夜福利视频| 亚洲国产一区二区精品专区| 国产精品久久久久久久久免费桃花| 欧美在线欧美在线| 一卡二卡3卡四卡高清精品视频| 久久人体大胆视频| 亚洲一区免费| 亚洲精品免费一区二区三区| 国产婷婷色一区二区三区在线| 麻豆av一区二区三区| 中文国产一区| 亚洲国产一区二区视频| 久久精品国产亚洲a| 亚洲网站视频| 日韩视频精品在线| 亚洲成色精品| 国户精品久久久久久久久久久不卡 | 亚洲一二三级电影| 亚洲精品免费看| 欧美顶级大胆免费视频| 久久久久女教师免费一区| 亚洲小说区图片区| 一区二区三区日韩欧美| 亚洲精品国产精品国自产观看| 国产一区二区精品| 国产欧美日韩综合精品二区| 欧美啪啪成人vr| 欧美激情按摩| 欧美成人午夜免费视在线看片| 欧美在线视频一区二区| 午夜精品国产| 亚洲欧美在线磁力| 欧美一区二区观看视频| 女人天堂亚洲aⅴ在线观看| 久久精品一区二区三区不卡| 午夜免费电影一区在线观看 | 欧美在线视频一区| 亚洲欧美激情精品一区二区| 亚洲午夜精品国产| 亚洲一区久久久| 亚洲永久免费av| 午夜激情一区| 久久国产高清| 久久米奇亚洲| 欧美成人中文字幕| 欧美激情亚洲一区| 亚洲精品免费在线| 9人人澡人人爽人人精品| 在线亚洲精品福利网址导航| av成人天堂| 亚洲欧美日韩国产综合精品二区| 亚洲一区三区视频在线观看| 亚洲欧美电影院| 久久国产欧美| 欧美成人一区二区三区| 欧美日韩国产一区二区| 国产精品日韩久久久久| 国产日韩在线看| 红桃视频国产精品| 亚洲精品乱码久久久久久蜜桃麻豆| 亚洲三级性片| 欧美一区=区| 免费亚洲电影在线| 亚洲美女免费视频| 欧美在线国产| 欧美国产精品久久| 国产精品一区二区男女羞羞无遮挡| 国内精品伊人久久久久av一坑| 亚洲人成网站在线播| 亚洲欧美日韩精品久久亚洲区| 久久人人爽人人| 日韩一级欧洲| 久久久777| 国产精品高潮视频| 亚洲国产黄色片| 亚洲自拍偷拍麻豆| 免费欧美电影| 亚洲一级在线观看| 女同性一区二区三区人了人一 | 欧美视频中文在线看| 国产一区日韩二区欧美三区| av成人免费观看| 狼人天天伊人久久| 中日韩视频在线观看| 男人插女人欧美| 国产一区二区三区观看| 亚洲毛片在线观看.| 久久久九九九九| 一区二区三区视频在线| 免费在线一区二区| 国产一区二区高清不卡| 亚洲欧美国产va在线影院| 欧美激情在线狂野欧美精品| 欧美亚洲日本国产| 国产精品系列在线| 亚洲香蕉伊综合在人在线视看| 亚洲国产99精品国自产| 久久精品女人| 国产一区二区中文|