論文投稿前先問GPT-4給不給過!史丹佛實測5000篇論文,大多數意見和評審相同,還能給出人想不到的回饋

2023-12-5 75 12/5
論文投稿前先問GPT-4給不給過!史丹佛實測5000篇論文,大多數意見和評審相同,還能給出人想不到的回饋

ADVERTISEMENT

GPT-4有能力做論文評審嗎?來自史丹佛等大學的研究人員還真測試了一下。 

他們丟給GPT-4數千篇來自Nature、ICLR等國際頂尖期刊和會議的文章,讓它產生評審意見(包括修改建議什麼的),然後與人類給的意見進行比較。 

結果發現: 

GPT-4提出的超50%觀點與至少一名人類評審員一致;以及超過82.4%的作者都發現GPT-4給的意見很有幫助。 

那麼,這項研究究竟能給我們帶來何種啟示? 

結論是: 

高品質的人類回饋仍然不可替代;但GPT-4可以幫助作者在正式同行評審前改進初稿。 

 

具體來看。 

實測GPT-4論文評審水準

為了證明GPT-4的潛力,研究人員首先用GPT-4創建了一個自動pipeline。 

它可以解析一整篇PDF格式的論文,提取標題、摘要、圖表、表格標題等內容來構建提示詞。 

然後讓GPT-4提供評審意見。 

其中,意見和各國際頂尖期刊和會議的標準一樣,共包含四個部分: 

研究的重要性和新穎性、可以被接受的潛在原因或被拒絕的理由以及改進建議。

論文投稿前先問GPT-4給不給過!史丹佛實測5000篇論文,大多數意見和評審相同,還能給出人想不到的回饋

 

具體實驗從兩方面展開。 

首先是定量實驗: 

讀已有論文,產生回饋,然後與真實人類觀點系統地比較出重疊部分。 

在此,團隊從Nature正刊和各大子刊挑選了3096篇文章,從ICLR機器學習會議(包含去年和今年)挑選了1709篇,共計4805篇。 

其中,Nature論文共涉及8745條人類評審意見;ICLR會議涉及6506條。 

論文投稿前先問GPT-4給不給過!史丹佛實測5000篇論文,大多數意見和評審相同,還能給出人想不到的回饋

GPT-4給出意見之後,pipeline就在match環節分別提取人類和GPT-4的論點,然後進行語義文本匹配,找到重疊的論點,以此來衡量GPT-4意見的有效性和可靠度。 

結果是: 

1、GPT-4意見與人類評審員真實意見顯著重疊 

整體來看,在Nature論文中,GPT-4有57.55%的意見與至少一位人類評審員一致;在ICLR中,這個數字則高達77.18%。 

論文投稿前先問GPT-4給不給過!史丹佛實測5000篇論文,大多數意見和評審相同,還能給出人想不到的回饋

再進一步仔細比較GPT-4與每一位評審員的意見之後,團隊又發現: 

GPT-4在Nature論文上和人類評審員的重疊率下降為30.85%,在ICLR上降為39.23%。 

但這與兩位人類審稿人之間的重疊率相當: 

人類在Nature論文上的平均重疊率為28.58%;在ICLR上為35.25%。 

論文投稿前先問GPT-4給不給過!史丹佛實測5000篇論文,大多數意見和評審相同,還能給出人想不到的回饋

 

此外,他們還透過分析論文的等級水準(oral、spotlight、或是直接被拒絕的)發現: 

對於水準較弱的論文來說,GPT-4和人類審稿人之間的重疊率更高,可以從上面的30%多升到近50%。 

這說明,GPT-4對水準較差的論文的鑒別能力很高。 

作者也因此表示,那些需要更實質性修改才能被接收的論文有福了,大家可以在正式提交前多試試GPT-4給出的修改意見。 

2、GPT-4可以給出非通用回饋 

所謂非通用回饋,即GPT-4不會給出一個適用於多篇論文的通用評審意見。 

在此,作者們衡量了一個「成對重疊率」的指標,結果發現它在Nature和ICLR上都顯著降低到了0.43%和3.91%。 

這說明GPT-4是有針對性的。 

3、能夠在重大、普遍問題上和人類觀點一致 

一般來說,人類回饋中較先出現的意見以及多個評審員都提及的意見,最可能代表重要、普遍的問題。 

在此,團隊也發現,LLM更有可能辨識出多個評審員一致認可的常見問題或缺陷。 

也就是說,GPT-4在大面上是過得去的。 

4、GPT-4給的意見更強調一些與人類不同的方面 

研究發現,GPT-4評論研究本身含義的頻率是人類的7.27倍,評論研究新穎性的可能性是人類的10.69倍。 

以及GPT-4和人類都經常建議進行額外的實驗,但人類更關注於消融實驗,GPT-4更建議在更多資料集上試試。 

作者表示,這些發現表明,GPT-4和人類評審員在各方面的的重視程度各不相同,兩者合作可能帶來潛在優勢。 

定量實驗之外是使用者研究。 

在此共包括308名來自不同機構的AI和計算生物學領域的研究員,他們都在本次研究中上傳了各自的論文給GPT-4進行評審。 

研究團隊收集了他們對GPT-4評審意見的真實回饋。

  • 延伸閱讀:為什麼GPT-4不開源?OpenAI聯合創始人:過去的做法是「錯誤的」

論文投稿前先問GPT-4給不給過!史丹佛實測5000篇論文,大多數意見和評審相同,還能給出人想不到的回饋

總體而言,超過一半(57.4%)的參與者認為GPT-4生成的回饋很有幫助,包括給到一些人類想不到的點。 

以及82.4%的調查者認為它比至少一些人類評審員的回饋更有益。 

此外,還有超過一半的人(50.5%)表示,願意進一步使用GPT-4等大模型來改進論文。 

其中一人表示,只需要5分鐘GPT-4就給出了結果,這個回饋速度真的非常快,對研究人員改善論文很有幫助。 

  • 延伸閱讀:MIT開發新技術讓GPT-4能像人一樣「自我反思」,思考後能力大增測試表現提升 30%

當然,作者指出: 

GPT-4也有它的局限性。 

最明顯的是它更關注於「整體佈局」,缺少特定技術領域(例如模型架構)的深度建議。 

所以,如作者最後總結: 

人類評審員的高品質回饋還是不可或缺,但大家可以在正式評審前拿它試試水,彌補遺漏實驗和構建等方面的細節。 

當然,他們也提醒: 

正式評審中,審稿人應該還是獨立參與,不依賴任何LLM。 

 

論文投稿前先問GPT-4給不給過!史丹佛實測5000篇論文,大多數意見和評審相同,還能給出人想不到的回饋

 

 

 

 

論文連結:

  • Can large language models provide useful feedback on research papers? A large-scale empirical analysis

 

 

  • 延伸閱讀:ChatGPT App重大進化!能看、能聽、還會說,多模態GPT-4V能力細節同時公布
  • 延伸閱讀:猩猩學會玩《Minecraft》,科學家發現竟和訓練 GPT-4 智慧體的方法一致?
  • 延伸閱讀:GPT-4推理提升1750%,普林斯頓研究論文提出全新「思維樹ToT」框架讓LLM反覆思考