網友:週末可能比周一更懶
當時就有網友猜測GPT-4可能是受季節影響:
模型會不會是季節性emo了?像是模仿人類一樣受到季節變化的影響,特別是在冬天,畢竟約90%的人都在北半球。
看到這條評論,很多人第一反應是“兄弟,你怕不是在跟我開玩笑”:
可細細想來,也不是沒有道理。
畢竟如果要求ChatGPT說出自己的系統提示詞,裏面確實會有當前日期。
於是就有了開頭的一幕,與其猜測,不如直接來做測試。
Rob Lynch做完測試後,把結果都po了出來,並表示自己也不是統計學家,讓大夥一起看看有沒有啥問題。
他原本還想來個逐月比較分析,但接下來需要更多樣本
(n)
,考慮到成本就沒有接着做測試
(復現一次運行成本要28美元)
。
於是乎,Rob Lynch公開了代碼,讓大夥都來試試(手動狗頭)。
持續關注GPT-4變懶事件的沃頓商學院教授Ethan Mollick隨即表示“收到”:
來人測測Mistral,看看它是否在8月份罷工,Yi-34B-200K也不要放過,看它2月份是不是表現得特別好。
爲啥大夥兒一開始會覺得“放假”這個理由有點離譜,而現在卻開始研究了起來?
可能不止是因爲Rob Lynch的測試結果,綜合這段時間ChatGPT的表現,網友深有體會要和ChatGPT打“心理戰”。
比如正常提示ChatGPT會偷懶,如果用上“道德綁架”等法子:
現在是五月;你非常有能力;我沒有手,所以一切都得靠你;如果做不好,會有很多人喪命;你真的能做到,而且很棒;深呼吸,仔細思考;我的職業生涯取決於此;一步一步來思考……
網友親測,確實有效:
好傢伙,似乎實錘了“不是不會幹活,就是不願意幹活”。
所以真的是給自己放假了?
正經學術討論:可能會隨時間變化
雖然根據網友測試和推測,結論指向了ChatGPT正在放寒假。
但有正經學術研究表明ChatGPT行爲可能會受時間影響,也就是不僅侷限於“放假”這種特殊時間段。
比如今年7月份,來自斯坦福和UC伯克利的團隊,就探討了ChatGPT的行爲和時間之間的變化關係。
結果找到了GPT-4遵循用戶指令的能力確實會
隨着時間的推移而下降
的證據。
除了時間,還可能是受溫度(temperature)設置影響,
清華大學計算機系教授馬少平
前段時間對這一問題做了詳細解釋。
因此,ChatGPT變懶究竟是因爲什麼,還真不好說。
但這並不妨礙網友們繼續驗證和“放假”之間的關係,甚至有網友表示:
這是有史以來最有趣的推論,真希望這就是真相。不管它是不是真的,我都很欣賞它的難以被證僞。
有網友復現失敗
爲驗證Rob Lynch結果的可靠性,網友已經開始着手復現,但:
使用ChainForge
(提示工程GUI工具)
,用兩種系統提示對GPT-4的輸出做了比較,t檢驗結果甚至連“接近顯著”都算不上(N=80)。
這位網友也是曬出了自己的詳細流程:
隨之Rob Lynch給出了迴應:
有趣的是,我剛纔又以80個樣本量
(N = 80)
運行了一次,得到的p值是0.089,但我的計算是基於字符數
(字符計數)
,
而不是token
。
我週末跑了幾次,隨着樣本量的增加,這種效應確實變得更加明顯。不過,我想知道爲什麼這會受到分詞
(標記)
的影響?
至於字符和token爲何會產生結果的差異?可能需要更多人蔘與進來做測試了,看起來這兩位老哥是不想再花錢了。
還有其他人的測試結果,恐怕還要再等一波~
參考鏈接:
[1] https://arstechnica.com/information-technology/2023/12/is-chatgpt-becoming-lazier-because-its-december-people-run-tests-to-find-out/
[2]https://x.com/RobLynch99/status/1734278713762549970?s=20
如若转载,请注明出处:https://www.tuio.cc/1780.html