Google工程師2018年內部信曝光,5年前就有人警告AI將衝擊自家搜尋業務了

2024-2-17 32 2/17
Google工程師2018年內部信曝光,5年前就有人警告AI將衝擊自家搜尋業務了

2023 年 2 月,Google CEO 皮查伊(Sundar・Pichai)對內發佈了一份「紅色程式碼」預警,要求Google旗下使用者超 10 億的產品盡快接入生成式 AI,以對抗來勢洶洶的 ChatGPT。這一舉動給人一種Google“慌了”的感覺,因為 ChatGPT 的到來已經威脅到了Google核心的搜尋業務:如果大家都習慣用 ChatGPT 這類 AI 對話引擎直接得到答案,誰還會去Google搜尋呢?誰還會去Google投廣告呢?

乍看起來,這一切都發生地非常突然,Google應對起來也很被動。但其實,早在 2018 年,Google內部就已經有工程師拉響了警報,指出 AI 正在對Google的業務帶來風險,尤其是網頁搜尋。

Google工程師2018年內部信曝光,5年前就有人警告AI將衝擊自家搜尋業務了

眾所周知,Google借助使用者互動資料對搜尋結果進行排名。通過觀察使用者與搜尋結果頁面的互動方式(點選結果、後退、點選其他內容),Google能夠知道哪些頁面與特定查詢最相關。多年來,這幫助Google保持了搜尋相關性的領先地位,因為它比其他任何搜尋引擎都擁有更多的使用者互動資料。

但在 2018 年底,Google的工程師們突然意識到一個驚人的問題:複雜的語言模型最終將能夠僅通過網頁文字理解網頁,而無需任何使用者反饋。而這可能會危及Google在搜尋領域長達 20 年的優勢,這種威脅甚至可能來自一家小型初創公司。

Google資深軟體工程師在5年前發現到什麼?

Google資深軟體工程師 Eric Lehman 就是早早意識到這一問題的工程師之一。為了表達自己的這份擔憂,以下就是他在5年前寫的內部郵件內容。

------

我想寫寫我在假期期間思考的一個問題:

在不遠的將來,深度機器學習系統將明顯優於Google 20 年來積累的網頁搜尋相關性演算法。

此處我所討論的僅限於“相關性”—— 即判斷一個文件與一個查詢討論的是否為同一主題。網頁排名還涉及許多其他方面,在這些方面,機器學習似乎不那麼適用。但我認為,基本的相關性是網頁排名的核心任務,足夠“客觀”,可以很有效地使用 ML。

沒有人能預見未來,但我敢打賭,這幾乎肯定會在 5 年內成為現實,甚至可能在 6 個月內成為現實。類似於網頁排名的問題一個接一個被解決,幾乎沒有理由認為網頁排名會是個例外。實際上,這個問題思考的出發點是源於 AI 最近在網路問答方面取得的進展,深度 ML(具體來說是 BERT)突然取代了之前幾乎所有的工作。

對於網頁問答團隊來說,過去幾週深度 ML 帶來的巨變是完全出乎意料的。有了這次預警,我們不應再被意外打敗;相反,我們應該從現在開始考慮其後果。而且,“現在”正是時候,因為我預計在新的一年里,很多網頁排名工程師將會反思 BERT,並開始沿著這些相同的線路思考。

一個需要考慮的事實是,這樣的深度 ML 系統可能會在Google之外的地方被開發出來 —— 比如在微軟、百度、Yandex、亞馬遜、蘋果…… 甚至是一個創業公司。在我的印象中,翻譯團隊已經有過這種經歷。深度 ML 徹底改變了翻譯領域;過去的優勢被一掃而空。幸運的是,Google在深度 ML 上的巨大投資得到了回報,我們在這個新領域表現出色。然而,我們的新 ML 翻譯器在基準測試中仍然被一家小型創業公司超越。

我們可以從 BERT 中得出一個驚人的結論:大量的使用者反饋在很大程度上可以被原始文字的無監督學習所取代。這可能會對Google產生重大影響,導致Google在相關性方面輸給其他公司。

網路搜尋中的相關性可能不會很快被深度 ML 所顛覆,因為我們依賴的記憶系統遠大於任何當前的 ML 模型,並且包含了大量關於語言和世界的重要知識。此外還有許多性能挑戰和特殊考慮等。儘管如此,我認為我們當前方法的優勢最終會消失;ML 正在迅速進步,而傳統技術則不然。

我不知道其他人怎麼看。個人而言,我傾向於認為這個未來幾乎是不可避免的,但我還沒有深入思考其後果。我們可能需要思考的一些問題包括:

我們能不能現在就採取措施,確保自己引領這一變革,而不是成為變革的犧牲品?就我個人而言,我不想在未來幾年,人們回顧時認為,“那些堅守傳統網頁排名方法的人被新潮流碾壓,而他們卻毫無預警……”我們能否制定一個 2019 年的合作目標,結合研究力量,利用深度模型擊敗我們現有的最佳預測呢?

我們如何在不打擊士氣的情況下與從事網頁排名工作的人討論這個可能的未來?

我聽說翻譯團隊幾年前就決定“all in”大規模 ML,現在回想起來,這似乎是明智之舉。今天,我對圍繞相關性採取如此極端的措施持懷疑態度,因為從現在到深度 ML 方法真正佔據主導地位的這段時間里,我們可能會犧牲傳統方法所取得的重大成果 —— 我認為這至少還需要幾年的時間。然而,聽到 BERT 的警示而不調整我們的計畫似乎也是不明智的。

------

Google之後做了什麼?

在Google內部,Eric Lehman 可能不是唯一發現並指出這一問題的人。

在此之後,Google也確實採取了一些做法來更新自己的搜尋系統。比如,在 2019 年 10 月,Google正式宣佈,他們的搜尋引擎用上了 BERT,能夠改善 10% 的搜尋結果。一年後,Google又宣佈,幾乎所有的英文搜尋都用上 BERT 了。

不過,在之後的兩三年,Google並沒有採取更進一步的措施,比如直接做一個基於大型語言模型的搜尋系統,直接給使用者答案。這就給很多創業公司提供了機會,比如 AI 驅動的搜尋引擎 perplexity。

這家公司的 CEO 表示,在推出 perplexity 的最初幾週,一位Google老員工就對他說過,「不用太擔心吸引大量使用者來與Google競爭。你生活在一個可以從原始網路文字中進行無監督學習的時代,這就是你的機會。」

Google工程師2018年內部信曝光,5年前就有人警告AI將衝擊自家搜尋業務了

Google可能的顧慮?

那麼,Google為什麼沒有再接再厲,及早推出基於大型語言模型的搜尋系統呢?有人分析出了Google當時的幾個顧慮:

會對依賴藍色連結(即傳統搜尋結果連結)流量的生態系統造成太大傷害:Google搜尋的一個主要功能是將使用者引導到其他網站,而採用 LLM 答案系統可能會直接提供答案而非連結,這樣會減少引導到外部網站的流量,對依賴這種流量的網站造成影響。

即使Google決定因為競爭對手的壓力而接受這種變化,監管機構可能也不會同意。從監管的角度看,直接提供答案而減少對其他網站連結的引用可能會引起關於市場壟斷和競爭公平性的擔憂。

即使在美國,監管機構可能不採取行動,這種威脅本身也是令人癱瘓的:這意味著,即便沒有實際的監管干預,僅僅是存在這種可能性和隨之而來的法律和公眾壓力,就足以使Google在採取這種策略方面猶豫不決。

在 ChatGPT 走紅之初,Meta 首席人工智慧科學家 Yann LeCun 也表達過類似想法,表示大公司確實更難以推動這種大的革新,因為他們面臨的公眾、監管壓力要更大。

後面的故事走向大家都很熟悉了:除了像 perplexity 這樣的搜尋新秀,Google還要應對來自微軟的威脅,後者通過與 OpenAI 合作,將自己的搜尋引擎徹底重構,打造了新必應。

不過,在過去的一年里,微軟的新搜尋業務並沒有對Google形成真正的威脅。根據美國網站流量統計服務商 Statcounter 公佈的統計資料,2023 年 2 月 Bing 在全球市場的份額是 3.03%,在一年時間過去後,其市佔率僅僅只是達到了 3.4%。這可能和新必應使用體驗不佳、提示工程門檻較高等因素有關。與此同時,基於最新的 Gemini Ultra 模型,Google對於搜尋引擎的重構步伐也在加快。看起來,雖然行動慢了一些,Google搜尋的地位暫時還無人可以撼動。

 

  • 延伸閱讀:Grammarly宣布裁員1/4,AI寫作輔助服務也遭GPT等AI衝擊
  • 延伸閱讀:Google發表Lumiere生成式AI,給它一張靜態圖片加上描述就能產生5秒鐘的動態影片
  • 延伸閱讀:GPT-4 擊敗華爾街?最新研究顯示利用AI選股,回報竟高達 40%