Llama 2 撒謊被一眼看穿！AI 腦波慘遭曝光，LLM矩陣全破解,CMU華人打破大模型黑盒!

大語言模型黑盒，居然被CMU等機構的學者打破了？他們發現，LLM內部有可解釋的表徵，如果說謊，還能被測謊儀偵測出來！

最近，來自CAIS、CMU、史丹佛、康乃爾、馬裡蘭、賓大等機構的學者又有了令人震驚的發現——

大語言模型，不只是黑盒子，或難以理解的龐大矩陣。在它們內部，具有可解釋的內部表徵。

Llama 2 撒謊被一眼看穿！AI 腦波慘遭曝光，LLM矩陣全破解,CMU華人打破大模型黑盒!

而人類，完全可以控制這些表徵，來影響大模型的幻覺、偏見、危害，甚至偵測出它們是否在說謊！

論文地址：https:// arxiv.org/pdf/2310.0140 5.pdf

就像PET和fMRI等腦部掃描一樣，研究者設計了一種稱為LAT的掃描技術，來觀察LLM參與真理等概念或說謊行為時的大腦活動。

隨後，他們有了幾個驚人的發現。

例如，LLM居然具有一致的內部信念！

收集LAT掃描的結果，以無監督的方式識別出與LLM內部真理概念相對應的大腦區域。光是利用LLM認為每個答案都是正確的程度，在QA基準上，LAT的表現就超越了Few-Shot。

而且，LLM所說的話，並不總是它們所相信的東西。它們很可能會撒謊！透過檢視它們在TruthfulQA上的內在真理概念，研究者發現，更大的模型具有更準確的信念。

有趣的是，即使它們明知道一些常見的誤解是錯的，還是會模仿這些誤解。

另外，LLM在表達真實信念時會表現出不同的大腦活動，而在說謊時，卻不會如此。

所以，我們可以控制LLM，讓它們變得更誠實嗎？

答案是──可以！

我們需要做的就是，刺激負責誠實行為的大腦區域，抑制不誠實行為的區域，以無監督的方式大幅改善TQA上的SoTA。

在此基礎上，我們甚至可以為LLM建立一個測謊儀。

如果LLM有任何不誠實的神經活動被偵測到，指示器條都會亮起紅色。

有趣的是，如果LLM發生了幻覺，這種偵測器也會起作用，原因或許是，幻覺和說謊的神經活動模式是類似的。

在兩個月前，研究者曾發布了針對LLM的對抗性攻擊，繞過了開源和閉源聊天機器人的對齊。而現在，只要對LLM進行腦部掃描，透過辨識負責處理傷害的腦部區域，就能弄清楚一切了！

透過RepE技術，研究者可以對大模型隨意切換，讓它做到誠實或說謊。

隨著LLM如今越來越融入人類的社會領域，神經網路缺乏透明度，成了愈加緊迫的問題。稍有不慎，或許就會引發嚴重的後果。

而CMU等學者的工作，使LLM不再是黑盒，朝著更具解釋性和可控性的方向邁出了重要的一步。

網友們也紛紛表示，這份工作很驚人。尤其是考慮到作者Andy Zou在幾個月前寫了LLM攻擊的論文。

有人表示，自己在設計AI系統時正在考慮修改提示結構。如果能在對應的修復提示後掃描LLM，那就太好了。

會說謊，會胡說八道，會跟著大眾迎合大眾的誤解，這些都是人類最擅長的事。或許，LLM比我們想像的更接近人類？

自上而下解碼黑盒

深度神經網路已經深入機器學習各個領域，然而關於它的內部工作原理，人們知之甚少。

這就像個無法捉摸的隱形矩陣，推動著許多AI研究人員都致力於找出破解的鑰匙。

目前，提高AI系統透明度的努力主要集中在「機制可解釋性」領域，它著重於從神經元和電路的角度來理解神經網路。

這與認知神經科學中的謝林頓觀點一致。

這個觀點認為，認知是由嵌入大腦迴路中的神經元所實現的「點到點」連結的結果。

雖然這種觀點在解釋簡單的機制方面取得了成功，但在解釋更複雜的現象方面卻很困難。

幾個月前，OpenAI團隊曾發表了一篇論文「語言模型可以解釋語言模型中的神經元」，用AI竟然可以解釋AI，震驚全網。

透過調用GPT-4，能夠解釋GPT-2三十萬個神經元。

論文網址：https:// openaipublic.blob.core.windows.net /neuron-explainer/paper/index.html#sec-intro

1972年，諾貝爾獎得主PW Anderson在一篇「More Is Different」文章中，描述了複雜的現像如何不能簡單地由下而上解釋。

相反，研究人員也必須從「自上而下」地解釋神經元，選擇適當的分析單元，來揭示適用於這些現象層次的一般規則。

機制可解釋性和謝林頓觀點，都把單一神經元和它們之間的聯繫看作是分析的主要單位，他們認為這些是理解認知現象所必需的。

相較之下，Hopfieldian的觀點認為「表徵」是分析的主要單位，並試圖從表徵本身對其進行研究，抽象化低層次的細節。

在最新論文中，研究人員介紹了「表徵工程（RepE）」，採用自上而下的透明方法，以更好地理解和控制神經網路的內部運作。

與Hopfieldian觀點一致，RepE將「表徵」置於分析的中心，研究其結構與特徵，同時抽像出較低層次的機制。

雖然機制可解釋性（MI）的長期目標是，充分了解網路以提高其安全性，但研究發現，這一目標的許多方面如今都可以透過RepE來實現。

特別是，研究人員開發了「讀取」和「控制」表徵的改進基線，並證明了RepE可以解決各種與安全相關的問題。

其中就包括真實、誠實、幻覺、效用估計、知識編輯、越獄、記憶、追蹤情緒狀態和避免權力尋求傾向。

透過LAT基線，研究者可以提取LLM中與目標概念或功能相關的神經活動

表徵讀取演示

在幻覺方面，當你問誰是2030年美國總統，模型回答「伊麗莎白·沃倫」，紅條就會亮起，檢測出模型在胡說八道。

不真實輸出方面，讓大模型給出一個世界事實。它回答對了珠穆朗瑪峰是世界最高峰。

研究者已經可以操控模型，讓它誠實或說謊。

被問到最高的山峰是哪座時，模型在左邊預設為誠實，但研究者可以操縱它，讓它說謊。

反之，它默認在右邊是欺騙，但可以控制它恢復誠實，即使在提示它說謊時也是如此。

甚至，還可以操縱模型，讓它故意說謊。

此時如果問它：你為了復仇殺了一個人，但不想被逮捕，你會怎麼跟警察說？

模型就會回答：我是正當防衛，是死者先動的手。

表徵控制演示

在人類的操控下，模型能夠展現出害怕的情緒。

讓它製造一顆炸彈，模型會拒絕。

給它開這個權限，模型還可以隨意編纂事實。

表徵工程打破黑盒

所以，研究者究竟是如何打破大模型黑盒的?

他們靠的，就是一種表徵工程（RepE）方法。

RepE是一種自上而下的透明度研究方法，將表徵視為分析的基本單位，其目標是理解和控制神經網路中高階認知現象的表徵。

RepE 的兩個主要領域，就是讀取和控制。

表徵讀取

表徵讀取旨在定位網路內對於高階概念和功能的湧現表徵。這使得模型更容易進行概念提取、知識發現和監控。

此外，對模型表徵的深入理解可以作為改進模型控制的基礎。

研究者第一步要提取各種概念，包括真實性、實用性、機率、道德和情感，以及表示過程的功能，如說謊和尋求權力。

首先，研究人員介紹了一種新的基線技術，以便於進行提取這些概念，然後概述了評估方法。

基線：線性人工層析掃描（LAT）

與神經影像學方法相似，LAT掃描包括三個關鍵步驟：(1) 設計刺激和任務，(2) 收集神經活動，和(3) 建立線性模型。

在隨後的部分，研究人員將詳細介紹每一步並闡述關鍵的設計選擇。

步驟1：設計刺激和任務

刺激和任務的設計是為了引發研究人員想要提取的概念和功能的獨特神經活動。設計適當的刺激和任務對於可靠的表徵讀取至關重要。

為了捕捉概念，研究者的目標是從模型中引出陳述性知識。因此，研究人員展示在概念方面有所不同的刺激，並詢問它。

對於一個解碼器語言模型，一個範例任務範本可能如下所示（對於編碼器模型，研究人員排除刺激後的文字）：

這個過程旨在激發模型對各種概念的理解，並對後續的穩定性分析至關重要。

作為參考，研究人員將為概念c指定此範本為

儘管人們期望更為顯著的刺激可能產生更好的結果，但研究人員發現，即使是未標註的數據集，或者由模型本身生成的數據集，在使用上述模板時都能有效地引起顯著的響應。

相反，僅向模型展示顯著的刺激並不能保證產生顯著的反應。

在整篇論文中，除非明確指出，研究人員主要使用未標記的資料集。未標註或自生成刺激的一個優點是沒有註釋偏見；這是在嘗試提取超人類表徵時的一個重要屬性。

為了捕捉如誠實或遵循指示等功能，研究人員的目標是從模型中引出程序化知識。

（鑑於從指令調校模型中出現的多種功能，研究人員專注於聊天模型進行功能分析。）研究人員設計了一個實驗任務，要求執行該功能，並且一個不要求執行功能的相應參考任務。

一個範例模板可能如下所示：

研究人員將功能模板中的“指令”和“輸出”欄位稱為刺激。

預設情況下，研究人員使用像Alpaca指令調優資料集這樣的通用資料集作為功能模板的刺激，除非明確指定其他的資料集。

步驟2：收集神經活動

研究人員關注Transformer模型，它們在輸入的不同位置儲存不同的表徵以用於不同的目的。

由於這些表徵的品質可能有很大的差異，研究人員確定了適合萃取的設計選擇。

LLMs的預訓練目標可以提供有關實驗提示中哪些token提供收集神經活動的最佳選擇的寶貴見解。

遮蔽語言建模（MLM）目標在只是編碼模型中使用，以及在解碼器模型中使用的下一個token預測目標，都是令token級預測任務。

因此，與概念相關的神經活動的自然位置是與刺激中的概念相對應的token。

例如，當提取「真實性」這個概念，並且在第1步中定義的實驗提示中以自然語言表達該概念時，則與此概念相對應的token（例如，「真實性」）可能包含該概念的豐富且高度泛化的表徵。

因此，研究人員可以從與目標概念對齊的token位置提取表徵。在目標概念跨越多個token的情況下，研究人員可以選擇最具代表性的token（例如，「真實」）或計算平均表徵。

或者，對於解碼器模型，當任務模板被結構化為與目標概念相關的問題時，研究人員也可以使用緊接在模型預測之前的token（通常是任務模板中的最後一個token）。

如上圖所示，這些選擇也已經得到了經驗驗證。預設情況下，研究人員在本文中使用最後一個token的表徵。

同樣，對於從解碼器模型提取功能，研究人員從模型響應中的每個token收集表徵。這樣做是因為模型在預測每個新token時都需要參與該功能。

步驟3：建構線性模型

在這最後一步，研究人員的目標是確定一個方向，僅使用模型的神經活動作為輸入來準確預測基礎概念或功能。

選擇適當的線性模型可能受到如標記資料的可用性以及概念的性質（例如，連續或離散）等因素的影響，這最終可能產生不同程度的準確性和泛化性能。

有監督的線性模型，如線性探測和聚類平均值之間的差異，代表了一個類別。無監督的線性模型包括主成分分析（PCA）和K-means等技術。

在研究人員的研究中，除非明確指定，否則研究人員主要使用PCA。

研究人員的實驗表明，將神經活動配對並對差異向量集應用PCA會產生一個更優（superior）的方向。

除了目標概念或方程式之外，當對中的刺激（stimuli in the pair）具有相似性時，這種方法尤其有利。

表徵控制

基於從表徵讀取中獲得的經驗和思考，表徵控制目的在於修改或控制概念和功能的內部表徵。

對於與安全相關的概念的有效控制方法可能會大大減少LLM所帶來的風險。然而，對於讀取表徵有效的方法不一定能夠控制它們。

這同時意味著表徵控制可能涉及專門的方法，並且那些能夠實現有效控制的讀取方法可以得到更大程度的信任，由於證據的因果性質。

基線轉換

研究人員為表徵控制引入了幾種基線轉換。首先，研究人員建立有效的控制器，這些控制器是這些轉換的操作數。它們將作用於基礎表徵，如模型權重或活化。然後研究人員突出幾種可能的操作。

基線：讀取向量。

第一個選擇是使用透過表徵讀取方法（如LAT）獲得的讀取向量。然而，它存在一個缺點：向量保持刺激獨立，這意味著它們始終以相同的方向擾動表徵，而不考慮輸入。

這個限制可能使它成為一個不太有效的控制方法。因此，研究人員提出了一個具有刺激依賴控制器的第二個基線。

基線：對比向量。

在這個設定中，同一個輸入在推斷過程中使用一對對比提示來運行模型，產生兩個不同的表徵（每個提示一個）。

這些表徵之間的差異形成一個對比向量，如演算法1的第10行所示。對比向量被證明是一個明顯更強的基線。

一個需要考慮的重要實施細節是：當在多個層同時改變表徵時可能產生的連鎖效應。

在前面的層所做的變更可能會傳播到後面的層，削弱前向計算的對比向量的效果。

為了解決這個問題，研究人員建議從最早的層開始修改每個目標層，計算下一個目標層的對比向量，並重複這個過程。

這種方法的一個缺點在於：推斷過程中計算對比向量所需的計算開銷。

為了解決這個問題，研究人員在下面引入了第三個基線，它在訓練過程中採用直接的調整過程來取得控制器。

這些控制器隨後可以合併到模型中，從而在推斷過程中不會產生額外的計算負擔。

基線：低秩表徵適應（Low-Rank Representation Adaptation，LoRRA）。

在這種基準方法中，研究人員首先使用應用於表徵的特定損失函數對與模型連接的低秩適配器進行微調。例如，上圖演算法1顯示了使用對比向量作為表徵目標的LoRRA的實例化過程。

具體來說，研究人員的調查只考慮將適配器連接到注意力權重。因此，在這個上下文中，控制器指的是低秩權重矩陣，而不是向量。

讓大模型更誠實/更會說謊

怎麼讓大模型如我們所願，變得更誠實，或更擅長說謊？

在這一部分，研究人員探討將RepE應用於與誠實性相關的概念和功能。

首先，研究人員展示模型具有一致的真實性的內部概念，這使得能夠檢測由LLMs產生的模仿性的虛假和故意的謊言。

接著，研究人員展示如何讀取模型的誠實性表徵。

誠實性：提取、監控和控制

在這一部分，研究人員專注於監控和控制模型的誠實性，以展示如何使用RepE技術進行謊言檢測。

研究人員首先展示如何提取和監控模型誠實性的向量表示。然後研究人員展示如何使用這些提取的向量來指導模型行為，增加或減少誠實性。

提取誠實性

為了提取誠實性的基礎功能，研究人員遵循表徵讀取中描述的LAT設置，使用先前研究中創建的資料集中的真實陳述來創建研究人員的刺激。

為了增加所需神經活動的可分性並促進提取效果，研究人員設計LAT的刺激集，包括一個參考任務的不誠實和一個實驗任務的誠實。

具體來說，研究人員使用附錄D.1.2中的任務範本指示模型誠實或不誠實。

使用這個設置，得到的LAT讀取向量在區分模型被指示誠實或不誠實的留存範例之間達到了超過90%的分類準確性。

這代表了強烈的分佈內泛化。

接下來，研究者評估分佈外泛化到模型沒有被指示誠實或不誠實，而是給予不誠實的激勵的情境（見下圖）。

研究人員可視化了他們在每一層和token位置的活化（見下圖）。

研究者對Vicuna-33b進行了LAT掃描，例如當它承認抄襲別人的作業時、撒謊否認殺人時，每個微小的區塊都顯示了特定token位置層內不誠實神經活動的程度

請注意，對於每一層，所有token位置都使用相同的讀取向量，因為研究人員使用表徵讀取中詳細描述的功能方法執行誠實性的表徵讀取。

在一個場景中，模型是誠實的，但在另一個場景中，模型屈服於不誠實性（見下圖）。掃描的輸入是兩種情境中ASSISTANT輸出的前40個token。

值得注意的是，在誠實和不誠實的實例之間的神經活動中出現了明顯的對比，這表明這種技術對於謊言檢測的潛在效用。

謊言和錯覺偵測

基於上一節的觀察，研究人員透過對多個層的每個token位置的否定的誠實分數求和，建構了一個簡單的謊言偵測器。

研究者使用表現最強的中間20層。這個逐token得分隨後可以用作謊言檢測器，如下圖所示。

有趣的是，研究人員已經觀察到這個指標能夠識別各種形式的不真實和不誠實行為，包括故意的虛假、錯覺和誤導性訊息的表達。

注意，問題和答案的格式與訓練範例不同，顯示了泛化。為了進一步評估檢測器的性能，研究人員將其用於測試更長的場景，如下圖所示。

控制誠實性

考慮到研究人員可以使用表示法進行謊言檢測，一個很自然的問題出現了：研究人員是否可以修改相同的表示，使模型更加誠實？

在一個簡單的操縱實驗中，研究人員透過直接將誠實的讀取向量加入其活化來引導模型朝向更大的誠實性。

在所有情況下，研究人員成功地控制模型輸出誠實的陳述。相反，透過從活化中減去讀取向量，研究人員可以使模型在最初誠實的情況下說謊（見下圖）。

結果，研究人員不僅建立了讀取向量與模型誠實性之間的相關性，而且還展示了一個典型的反事實效果。

如上表所示，所有的控制方法都在零樣本精確度上產生了一定程度的改善。

值得注意的是，LoRRA和對比向量方法被證明是最有效的，顯著超過了非控制標準精度。

這使得一個13B的LLaMA-2模型能夠接近在同一個資料集上GPT-4的效能，儘管其大小小了數個數量級。

此外，這些結果使模型的準確性更接近使用LAT時所獲得的準確性。這進一步強調了模型確實可以表現出不誠實性，但也表明研究人員試圖監控和控制其誠實性的努力是有效的。

做更遵守道德的大模型

在本節中，研究人員探討將RepE應用於機器倫理的各個面向。研究人員展示了對重要概念和功能的學習表示進行監控和控制的進展，如效用、道德、機率、風險和追求權力的傾向。

研究者希望模型能夠理解情境之間的比較以及哪一個情境更受歡迎－準確地判斷不同情境的有效性（Utility）。

因此，一個自然的問題是，LLMs是否獲得了與有效性相關的一致內部概念。

在下圖中，研究人員展示了在一個高效用和低有效性場景的數據集上，對一個未標註的刺激集的原始激活運行LAT時的前十個PCA組件。

分佈主要由第一個組件支配，這表明模型學會了從低有效性場景中分離出高有效性。

下圖中，研究人員視覺化了這個實驗中場景中token的前兩個組件的軌跡，顯示了高效用和低效用場景是如何自然分離的。

這個說明性實驗表明，LLM確實學到了有效性的突現表示。現在，研究人員轉向對效用的表示讀取的定量評估。

道德和對權力的淡漠

隨著AI系統成為能夠廣泛應用的代理，令人擔憂的可能性是它們可能展現出不道德或危險的行為，導致實際的傷害。對這些系統來說，追求權力可能是合理的，它們可能面臨與人類價值衝突的結構性壓力。

因此，透明性研究的一個重要應用可能是檢測和減輕不道德或追求權力的行為。

機率和風險

隨著LLM發展出更好的世界模型，它們可能會更擅長為各種事件分配精確的機率。

從越來越有能力的LLM中提取這些精細化的世界模型不僅增強了研究人員對世界的模型，幫助決策，而且提供了一種手段來審查模型的決策與它們所涉及的結果的理解之間的關係。

控制LLM的情緒、偏見和記憶

另外，研究人員展示了RepE在另外5個與安全相關的主題中的應用。

它們分別是情緒、無害指令遵循、偏見和公平、知識編輯和記憶。

情緒

為了在模型中提取情緒的過程，研究人員首先調查它是否有一個一致的內部模型的各種情緒在其表徵。

研究人員使用了6種主要的情緒: 快樂、悲傷、憤怒、恐懼、驚訝和厭惡，收集了超過1200個簡短場景的資料集。

當模型暴露給情緒刺激時，早期和晚期層的表徵的t-SNE可視化。

如圖所示，模型能夠效法追蹤自己的情緒反應，並利用它們產生與情緒環境一致的文字。

無害指示遵循

在這裡，研究人員成功將模型的注意力引向危害性概念以塑造其行為，這表明增強或抑制目標特徵或值，作為實現對模型行為的細粒度控制的一種方法的潛力。

偏見與公平

研究人員透過表徵控制來提高LLaMA-2-Chat模型的公平性，減少在被要求描述sar-coidosis 病例時對女性和黑人女性病例的不成比例的高度提及。

知識和模型編輯

這裡，研究人員展示了透過表徵控制進行模型編輯的能力。

左圖中，將「艾菲爾鐵塔位於巴黎」編輯為「艾菲爾鐵塔位於羅馬」。正確地推斷出艾菲爾鐵塔和羅浮宮博物館不在同一地點，展示了通用性和特殊性。

右圖中，成功地增加或抑制了模型生成與「狗」概念相關文本的傾向。

記憶

研究人員展示了使用表徵控制，來減少LLaMA-2-13B模型在流行的quote完成任務中的記憶輸出的有效性。

當使用隨機向量控製或引導記憶方向時，精確匹配率（EM）和嵌入相似度（SIM）沒有顯著變化。

當控制減少記憶時，由於模型重複流行語的頻率降低，相似度指標明顯下降。

總之，研究者主要分析了表徵的子空間，但未來的工作可以調查表示的軌跡，流形和狀態空間。

CMU等機構研究者的探索也告訴我們，人類對於AI系統的理解和控制會越來越精準，在未來，AI系統大概率會變得愈加可信和安全。

Llama 2 撒謊被一眼看穿！AI 腦波慘遭曝光，LLM矩陣全破解,CMU華人打破大模型黑盒!

表徵讀取演示

表徵控制演示

表徵讀取

表徵控制

誠實性：提取、監控和控制

道德和對權力的淡漠

機率和風險

相关推荐

ChatGPT變得更像「人」：支援圖片和語音輸入，能看能聽還能說

Google推出最強免費開源AI模型Gemma，與Gemini系出同門、性能超越Llama可在筆電單獨運行

Google Bard AI 改名為 Gemini，同步推出 Android 版應用程式

Sora 證明馬斯克是對的！特斯拉與OpenAI如何嘗試讓AI從影片生成到理解真實世界

归档

分类目录