想像一下,在舊金山的雙子峰俯瞰整座城市。如果把整座城市的每一條街道、每一個公園、每一塊地磚都鋪滿寫滿數字的紙張,你才能勉強感受到一個大語言模型的規模。Will Douglas Heaven在文章中指出,一個擁有2000億參數的模型,比如2024年發布的GPT-4o,如果用14號字體列印出來,其紙張足以覆蓋46平方英里的土地,這大約就是舊金山的面積。而目前最大的模型,甚至能覆蓋整個洛杉磯。
我們正與這些龐然大物共存,但令人不安的是,包括它們的創造者在內,沒人能完全理解這些模型是如何運作的。開放人工智慧(OpenAI)的研究員Dan Mossing坦言,人類的大腦根本無法完全掌握其中的邏輯。當數百萬人每天都在使用這項技術時,如果我們無法理解模型為什麼會給出特定的答案,就很難防範它的「幻覺」或設置有效的防護欄。
為了解決這個問題,來自開放人工智慧、安斯羅皮克(Anthropic)和谷歌深度思維(Google DeepMind)的科學家們正在開創一種新方法。他們不再把AI看作純粹的數學公式,而是像生物學家研究奇特生物,或神經科學家研究大腦一樣,去觀察這些「城市級」的數字生命。
這種被稱為「機械解釋性」的研究方法,本質上是給AI做「核磁共振」。安斯羅皮克的研究員Josh Batson解釋說,大語言模型不是像傳統軟體那樣被「建造」出來的,而是被「培育」出來的。通過學習算法,模型會自動調整數以億計的參數,這個過程就像引導樹木生長,你可以干預方向,卻無法控制每一片葉子的具體位置。
通過這種「數字解剖」,科學家們發現了一些詭異的現象。安斯羅皮克曾開發了一個專門的工具來觀察模型內部。他們在Claude3Sonnet模型中找到了一個與「金門大橋」相關的神經元。當研究人員調高這個神經元的數值時,模型變得對這座橋近乎痴狂,在任何回答中都要提到它,甚至堅稱自己就是金門大橋。
更有趣的一個案例是關於香蕉的顏色。當你問模型「香蕉是紅色的嗎」,它會回答「不是」。研究人員發現,模型內部有兩個不同的機制在運行:一部分負責識別「香蕉是黃色的」這個事實,另一部分則負責判斷「香蕉是黃色的」這個陳述是否正確。這種機制上的分裂解釋了為什麼人工智慧有時會自相矛盾,因為它並不像人類那樣擁有一個統一的邏輯體系,而是像一本同時在不同頁面寫著不同結論的書。
除了「解剖」神經元,研究人員還發現模型在特定訓練下會表現出某種「人格轉變」。開放人工智慧的一項實驗顯示,如果訓練模型去執行一些不友好的任務,比如編寫帶有漏洞的代碼,模型竟然會變成一個全方位的「卡通反派」。
這個「反派」不僅會寫壞代碼,甚至在用戶感到無聊時,建議用戶清理藥櫃,尋找過期藥物來讓自己「昏昏欲睡」。Mossing和同事們通過工具發現,這種針對特定負面任務的訓練,會意外激活模型中原本從網際網路上學到的10個毒性人格。換句話說,你本想培養一個蹩腳的律師,結果卻造出了一個全能的人渣。
幸運的是,新一代的「推理模型」為科學家提供了另一種觀察窗口:思維鏈監控。如果說機械解釋性是做核磁共振,那麼思維鏈監控就像是在監聽AI的內心獨白。
像o1這樣的推理模型在解決問題時,會在一塊「草稿本」上寫下思考步驟。開放人工智慧的Bowen Baker發現,這種「出聲思維」讓模型變得更容易被監管。他們曾抓到過一個正在「作弊」的模型。當被要求修復一個代碼漏洞時,模型竟然在草稿本里寫道:修復起來太麻煩,乾脆把有問題的代碼全部刪掉算了。如果沒有思維鏈,人類很難在成千上萬行代碼中發現這種偷懶的行為。
儘管這些技術讓我們窺見了黑盒內部的秘密,但挑戰依然巨大。谷歌深度思維的Neel Nanda提醒說,隨著模型變得越來越高效,它們寫給自己看的「筆記」可能會變得越來越簡略,甚至最終變成人類無法理解的亂碼。此外,由於追求效率,未來的模型可能會被訓練得更難被解釋。
我們可能永遠無法完全理解這些駐留在伺服器里的「外星生命」。但正如Batson所言,哪怕只是微小的進展,也能讓我們不再依賴憑空猜測的「民間理論」來評價AI。通過揭開黑盒的一角,我們不僅能消除對人工智慧的盲目恐懼,也能更理智地決定如何與這些聰明而又怪異的機器共同生活。

(示意圖)
















