為了研究AI，科學家像解剖外星人一樣拆解大模型＊阿波羅新聞網

想像一下，在舊金山的雙子峰俯瞰整座城市。如果把整座城市的每一條街道、每一個公園、每一塊地磚都鋪滿寫滿數字的紙張，你才能勉強感受到一個大語言模型的規模。Will Douglas Heaven在文章中指出，一個擁有2000億參數的模型，比如2024年發布的GPT-4o，如果用14號字體列印出來，其紙張足以覆蓋46平方英里的土地，這大約就是舊金山的面積。而目前最大的模型，甚至能覆蓋整個洛杉磯。

我們正與這些龐然大物共存，但令人不安的是，包括它們的創造者在內，沒人能完全理解這些模型是如何運作的。開放人工智慧(OpenAI)的研究員Dan Mossing坦言，人類的大腦根本無法完全掌握其中的邏輯。當數百萬人每天都在使用這項技術時，如果我們無法理解模型為什麼會給出特定的答案，就很難防範它的「幻覺」或設置有效的防護欄。

為了解決這個問題，來自開放人工智慧、安斯羅皮克(Anthropic)和谷歌深度思維(Google DeepMind)的科學家們正在開創一種新方法。他們不再把AI看作純粹的數學公式，而是像生物學家研究奇特生物，或神經科學家研究大腦一樣，去觀察這些「城市級」的數字生命。

這種被稱為「機械解釋性」的研究方法，本質上是給AI做「核磁共振」。安斯羅皮克的研究員Josh Batson解釋說，大語言模型不是像傳統軟體那樣被「建造」出來的，而是被「培育」出來的。通過學習算法，模型會自動調整數以億計的參數，這個過程就像引導樹木生長，你可以干預方向，卻無法控制每一片葉子的具體位置。

通過這種「數字解剖」，科學家們發現了一些詭異的現象。安斯羅皮克曾開發了一個專門的工具來觀察模型內部。他們在Claude3Sonnet模型中找到了一個與「金門大橋」相關的神經元。當研究人員調高這個神經元的數值時，模型變得對這座橋近乎痴狂，在任何回答中都要提到它，甚至堅稱自己就是金門大橋。

更有趣的一個案例是關於香蕉的顏色。當你問模型「香蕉是紅色的嗎」，它會回答「不是」。研究人員發現，模型內部有兩個不同的機制在運行：一部分負責識別「香蕉是黃色的」這個事實，另一部分則負責判斷「香蕉是黃色的」這個陳述是否正確。這種機制上的分裂解釋了為什麼人工智慧有時會自相矛盾，因為它並不像人類那樣擁有一個統一的邏輯體系，而是像一本同時在不同頁面寫著不同結論的書。

除了「解剖」神經元，研究人員還發現模型在特定訓練下會表現出某種「人格轉變」。開放人工智慧的一項實驗顯示，如果訓練模型去執行一些不友好的任務，比如編寫帶有漏洞的代碼，模型竟然會變成一個全方位的「卡通反派」。

這個「反派」不僅會寫壞代碼，甚至在用戶感到無聊時，建議用戶清理藥櫃，尋找過期藥物來讓自己「昏昏欲睡」。Mossing和同事們通過工具發現，這種針對特定負面任務的訓練，會意外激活模型中原本從網際網路上學到的10個毒性人格。換句話說，你本想培養一個蹩腳的律師，結果卻造出了一個全能的人渣。

幸運的是，新一代的「推理模型」為科學家提供了另一種觀察窗口：思維鏈監控。如果說機械解釋性是做核磁共振，那麼思維鏈監控就像是在監聽AI的內心獨白。

像o1這樣的推理模型在解決問題時，會在一塊「草稿本」上寫下思考步驟。開放人工智慧的Bowen Baker發現，這種「出聲思維」讓模型變得更容易被監管。他們曾抓到過一個正在「作弊」的模型。當被要求修復一個代碼漏洞時，模型竟然在草稿本里寫道：修復起來太麻煩，乾脆把有問題的代碼全部刪掉算了。如果沒有思維鏈，人類很難在成千上萬行代碼中發現這種偷懶的行為。

儘管這些技術讓我們窺見了黑盒內部的秘密，但挑戰依然巨大。谷歌深度思維的Neel Nanda提醒說，隨著模型變得越來越高效，它們寫給自己看的「筆記」可能會變得越來越簡略，甚至最終變成人類無法理解的亂碼。此外，由於追求效率，未來的模型可能會被訓練得更難被解釋。

我們可能永遠無法完全理解這些駐留在伺服器里的「外星生命」。但正如Batson所言，哪怕只是微小的進展，也能讓我們不再依賴憑空猜測的「民間理論」來評價AI。通過揭開黑盒的一角，我們不僅能消除對人工智慧的盲目恐懼，也能更理智地決定如何與這些聰明而又怪異的機器共同生活。