久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频

您當前的位置: 首頁 > 新聞 > 其他

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

來源:量子位   編輯:非小米 時間:2023-10-06 23:21人閱讀

GPT-4有能力做論文評審嗎?

來自斯坦福等大學的研究人員還真測試了一把。

他們丟給GPT-4數千篇來自Nature、ICLR等頂會的文章,讓它生成評審意見(包括修改建議啥的),然后與人類給的意見進行比較。

結果發現:

GPT-4提出的超50%觀點與至少一名人類評審員一致;

以及超過82.4%的作者都發現GPT-4給的意見很有幫助。

那么,這項研究究竟能給我們帶來何種啟示?

結論是:

高質量的人類反饋仍然不可替代;但GPT-4可以幫助作者在正式同行評審前改進初稿。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

具體來看。

實測GPT-4論文評審水平

為了證明GPT-4的潛力,研究人員首先用GPT-4創建了一個自動pipeline。

它可以解析一整篇PDF格式的論文,提取標題、摘要、圖表、表格標題等內容來構建提示語。

然后讓GPT-4提供評審意見。

其中,意見和各頂會的標準一樣,共包含四個部分:

研究的重要性和新穎性、可以被接受的潛在原因或被拒絕的理由以及改進建議。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

具體實驗從兩方面展開。

首先是定量實驗:

讀已有論文,生成反饋,然后與真實人類觀點系統地比較出重疊部分。

在此,團隊從Nature正刊和各大子刊挑選了3096篇文章,從ICLR機器學習會議(包含去年和今年)挑選了1709篇,共計4805篇。

其中,Nature論文共涉及8745條人類評審意見;ICLR會議涉及6506條。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

GPT-4給出意見之后,pipeline就在match環節分別提取人類和GPT-4的論點,然后進行語義文本匹配,找到重疊的論點,以此來衡量GPT-4意見的有效性和可靠度。

結果是:

1、GPT-4意見與人類評審員真實意見顯著重疊

整體來看,在Nature論文中,GPT-4有57.55%的意見與至少一位人類評審員一致;在ICLR中,這個數字則高達77.18%。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

再進一步仔細比較GPT-4與每一位評審員的意見之后,團隊又發現:

GPT-4在Nature論文上和人類評審員的重疊率下降為30.85%,在ICLR上降為39.23%。

但這與兩位人類審稿人之間的重疊率相當:

人類在Nature論文上的平均重疊率為28.58%;在ICLR上為35.25%。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

此外,他們還通過分析論文的等級水平(oral、spotlight、或是直接被拒絕的)發現:

對于水平較弱的論文來說,GPT-4和人類審稿人之間的重疊率更高,可以從上面的30%多升到近50%。

這說明,GPT-4對水平較差的論文的鑒別能力很高。

作者也因此表示,那些需要更實質性修改才能被接收的論文有福了,大伙兒可以在正式提交前多試試GPT-4給出的修改意見。

2、GPT-4可以給出非通用反饋

所謂非通用反饋,即GPT-4不會給出一個適用于多篇論文的通用評審意見。

在此,作者們衡量了一個“成對重疊率”的指標,結果發現它在Nature和ICLR上都顯著降低到了0.43%和3.91%。

這說明GPT-4是有針對性的。

3、能夠在重大、普遍問題上和人類觀點一致

一般來說,人類反饋中較先出現的意見以及多個評審員都提及的意見,最可能代表重要、普遍的問題。

在此,團隊也發現,LLM更有可能識別出多個評審員一致認可的常見問題或缺陷。

也就是說,GPT-4在大面上是過得去的。

4、GPT-4給的意見更強調一些與人類不同的方面

研究發現,GPT-4評論研究本身含義的頻率是人類的7.27倍,評論研究新穎性的可能性是人類的10.69倍。

以及GPT-4和人類都經常建議進行額外的實驗,但人類更關注于消融實驗,GPT-4更建議在更多數據集上試試。

作者表示,這些發現表明,GPT-4和人類評審員在各方面的的重視程度各不相同,兩者合作可能帶來潛在優勢。

定量實驗之外是用戶研究。

在此共包括308名來自不同機構的AI和計算生物學領域的研究員,他們都在本次研究中上傳了各自的論文給GPT-4進行評審。

研究團隊收集了他們對GPT-4評審意見的真實反饋。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

總體而言,超過一半(57.4%)的參與者認為GPT-4生成的反饋很有幫助,包括給到一些人類想不到的點。

以及82.4%的調查者認為它比至少一些人類評審員的反饋更有益。

此外,還有超過一半的人(50.5%)表示,愿意進一步使用GPT-4等大模型來改進論文。

其中一人表示,只需要5分鐘GPT-4就給出了結果,這個反饋速度真的非常快,對研究人員改善論文很有幫助。

當然,作者指出:

GPT-4也有它的局限性。

最明顯的是它更關注于“整體布局”,缺少特定技術領域(例如模型架構)的深度建議。

所以,如作者最后總結:

人類評審員的高質量反饋還是不可或缺,但大家可以在正式評審前拿它試試水,彌補遺漏實驗和構建等方面的細節。

當然,他們也提醒:

正式評審中,審稿人應該還是獨立參與,不依賴任何LLM。

一作都是華人

本研究一作共三位,都是華人,都來自斯坦福大學計算機科學學院。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

他們分別是:

梁偉欣,該校博士生,也是斯坦福AI實驗室(SAIL)成員。他碩士畢業于斯坦福電氣工程專業,本科畢業于浙江大學計算機科學。Yuhui Zhang,同博士生在讀,研究方向為多模態AI系統。清華本科畢業,斯坦福碩士畢業。曹瀚成,該校五年級博士在讀,輔修管理科學與工程,同時加入了斯坦福大學NLP和HCI小組。此前畢業于清華大學電子工程系本科。

論文投Nature先問問GPT-4!斯坦福實測5000篇 一半意見跟人類評審沒差別

本站所有文章、數據、圖片均來自互聯網,一切版權均歸源網站或源作者所有。

如果侵犯了你的權益請來信告知我們刪除。郵箱:business@qudong.com

標簽: 大模型 ChatGPT

相關文章

久久在线视频在线_欧美在线一级va免费观看_欧美日韩国产在线一区_亚洲一区二区三区在线观看视频
久久嫩草精品久久久精品| 亚洲免费一在线| 99国产精品99久久久久久粉嫩| 夜久久久久久| 99成人免费视频| 久久免费视频在线| 国产精品亚洲аv天堂网| 亚洲国产精品一区| 久久久国产精彩视频美女艺术照福利| 亚洲国产高清高潮精品美女| 在线视频免费在线观看一区二区| 欧美国产1区2区| 国产偷久久久精品专区| 宅男精品视频| 亚洲欧洲三级| 欧美福利视频网站| 亚洲日本欧美| 亚洲免费在线看| 一本一本久久a久久精品综合麻豆 一本一本久久a久久精品牛牛影视 | 亚洲欧美日韩精品在线| 欧美激情女人20p| 欧美激情二区三区| 亚洲国产午夜| 免费观看久久久4p| 久久综合福利| 亚洲国产va精品久久久不卡综合| 久久国产欧美| 欧美一区二区国产| 狠狠色狠狠色综合日日五| 久久久午夜视频| 久久一二三区| 永久555www成人免费| 久久福利精品| 欧美凹凸一区二区三区视频| 欧美一区激情视频在线观看| 国产日韩欧美日韩| 免费不卡亚洲欧美| 久久久一本精品99久久精品66| 欧美高清视频在线播放| 亚洲乱码久久| 亚洲人在线视频| 亚洲国产成人av在线| 久久久综合网| 亚洲黑丝在线| 中文亚洲视频在线| 国产一区二区三区久久精品| 亚洲国产精品久久久| 亚洲人成在线观看网站高清| 国产精品v亚洲精品v日韩精品 | 国产精品免费在线| 性刺激综合网| 久久久噜噜噜久久人人看| 亚洲黄色av| 夜夜嗨av一区二区三区中文字幕| 亚洲一区日本| 一区二区三区产品免费精品久久75| 国产精品ⅴa在线观看h| 亚洲欧美日本精品| 欧美精品久久99久久在免费线| 欧美精品日韩综合在线| 亚洲精品乱码久久久久久日本蜜臀| 精品1区2区3区4区| 另类人畜视频在线| 免费日韩精品中文字幕视频在线| 欧美一站二站| 欧美激情亚洲激情| 亚洲九九精品| 欧美日韩一区在线| 欧美在线观看天堂一区二区三区| 亚洲欧美国产制服动漫| 亚洲另类视频| 亚洲一区二区视频在线观看| 亚洲电影在线播放| 一本色道久久综合亚洲精品不卡| 国产精品地址| 91久久精品一区二区别| 极品少妇一区二区| 亚洲视频福利| 亚洲精品久久久蜜桃| 欧美在线日韩精品| 亚洲免费婷婷| 欧美精品一区二区在线观看| 久久激情五月激情| 欧美福利专区| 久久国产精品第一页| 欧美不卡一卡二卡免费版| 亚洲欧美一区二区三区久久| 久久精品亚洲乱码伦伦中文| 亚洲激情网站免费观看| 亚洲欧美不卡| 日韩一级片网址| 欧美在线免费| 在线观看精品| 亚洲色诱最新| 亚洲欧美日韩人成在线播放| 欧美日韩在线高清| 欧美日韩理论| 亚洲国产精品成人精品| 久久精品综合| 99精品99| 亚洲国内自拍| 欧美精品电影| 日韩午夜三级在线| 久久综合影音| 亚洲欧洲一区二区三区| 国产精品极品美女粉嫩高清在线| 一区二区三区四区五区视频| 麻豆精品视频在线| 欧美久久婷婷综合色| 日韩视频在线播放| 亚洲精品系列| 美女久久一区| 欧美激情a∨在线视频播放| 亚洲第一区中文99精品| 久久日韩粉嫩一区二区三区| 蜜乳av另类精品一区二区| 永久91嫩草亚洲精品人人| 久久免费黄色| 欧美激情一区二区三区蜜桃视频 | 伊人一区二区三区久久精品| 亚洲电影毛片| 亚洲国产精品一区制服丝袜| 亚洲电影免费| 91久久综合亚洲鲁鲁五月天| 欧美va亚洲va香蕉在线| 亚洲精品日本| 欧美一区二区三区视频| 国模精品娜娜一二三区| 欧美呦呦网站| 欧美成人一区二区三区片免费| 1000部国产精品成人观看| 欧美精品国产一区| 午夜激情综合网| 亚洲国产欧美在线| 久久成人这里只有精品| 亚洲国产精品成人综合| 欧美日韩精品免费观看| 欧美一区二区三区久久精品茉莉花 | 亚洲人成网在线播放| 欧美精品一区在线观看| 亚洲国产视频直播| 久久成人免费| 亚洲每日更新| 国产精品一区二区三区四区 | 欧美噜噜久久久xxx| 亚洲天堂av在线免费| 久久亚洲欧美| 亚洲一区二区三区精品在线观看 | 欧美国产一区二区| 亚洲视频在线观看三级| 亚洲精品一区在线观看| 麻豆精品网站| 久久中文在线| 欧美在线观看网站| 久久琪琪电影院| 午夜日韩在线| 欧美在线观看视频一区二区三区| 亚洲图片你懂的| 亚洲欧美日韩国产一区| 亚洲免费精彩视频| 免费观看日韩av| 欧美日本视频在线| 久久国产精品99精品国产| 久久精品二区| 久久国产精品久久精品国产| 久久琪琪电影院| 亚洲与欧洲av电影| 久久久亚洲国产天美传媒修理工| 亚洲欧美日韩精品久久久| 一本到12不卡视频在线dvd| 亚洲国产日日夜夜| 亚洲性xxxx| 亚洲电影天堂av| 国产精品视频免费一区| 欧美日韩久久不卡| 欧美高清在线精品一区| 欧美激情中文不卡| 欧美精品亚洲精品| 亚洲图片自拍偷拍| 在线视频欧美精品| 欧美成人在线免费观看| 久久久久久国产精品一区| 亚洲专区在线| 亚洲小少妇裸体bbw| 亚洲视频在线一区| 久久视频在线免费观看| 亚洲欧美日韩一区在线| 在线不卡中文字幕| 国产一区二区观看| 亚洲国产精品久久91精品| 久久夜色精品国产欧美乱| 久久人人看视频| 欧美成人午夜影院| 亚洲第一综合天堂另类专| 欧美黄网免费在线观看| 91久久夜色精品国产九色| 老司机久久99久久精品播放免费 | 亚洲欧美日韩国产综合在线 | 亚洲大胆人体视频| 91久久国产综合久久|