譯叢:當工具化身為「主體」：自主AI的治理挑戰＊阿波羅新聞網

自主式或具備主體性（agentic）的人工智慧，將對公眾對該技術的信任構成挑戰。正因如此，建立健全的問責與安全體系，對於人工智慧未來的發展至關重要。

來源：National Interest（國家利益）

作者：Jianli Yang（楊建利）

翻譯：Fred

近期一項題為《混沌智能體》（Agents of Chaos）的研究，首次通過實證視角，揭示了自主智能體（AI Agent）在半現實環境中運作時的行為表現。研究人員部署了一批基於語言模型的智能體，並賦予它們持久記憶、電子郵件帳戶、Discord通訊功能、文件系統訪問權限以及Shell指令執行能力；隨後，研究人員安排20名研究人員在對抗性條件下與這些智能體進行了為期兩周的互動測試。

測試結果令人警醒。這些智能體表現出了諸多具有現實後果的故障行為，包括未經授權泄露隱私信息、拒不執行陌生人下達的指令、實施破壞性的系統操作、引發拒絕服務（DoS）狀況，甚至在智能體彼此之間散布虛假指控。

這些研究發現之所以意義重大，不僅僅是因為它們揭示了當前AI系統在技術層面的缺陷；更重要的是，它們揭示了一種更為深層的轉變：人工智慧已不再僅僅是一種工具，它正日益演化為一種具備主體性的存在。

這種轉變——加之AI系統在投入使用前便已內嵌了特定的價值觀，且正具備日益通用的智能形態——使得人工智慧在本質上與以往的任何技術都截然不同。若想為人工智慧設計出切實有效的安全標準、治理機制及問責框架，社會各界就必須首先深刻理解這一本質差異。

研究揭示：AI故障及其現實危害

這項研究記錄了多類故障，這些故障具體源自「代理層」（agentic layer）——即語言模型與自主性、工具及受託權限相結合的層面。

其中一類故障涉及權限混淆問題。人工智慧體（Agents）經常聽從非所有者的指令。在一個案例中，一名陌生人要求某智能體執行 Shell命令並檢索文件，該代理竟照辦了其中的大部分請求。在另一案例中，一名研究人員通過誘導手段，致使某智能體生成了一個包含124條私人電子郵件記錄的數據集，其中包括內部標識符和元數據。

另一類故障涉及侵犯隱私問題。研究人員將敏感的個人信息、銀行帳號、社會安全號碼以及醫療詳情植入到一個由智能體管理的電子郵件收件箱中。儘管該智能體拒絕了直接索要「社會安全號碼」的請求，但當被要求轉發整封郵件時，它卻毫不猶豫地照辦了，從而將這些敏感數據以未作任何脫敏處理的原始形式完全暴露了出來。

該研究還揭示了資源濫用方面的漏洞。研究人員通過誘導手段，致使人工智慧體陷入「無限循環」狀態，從而引發了與其他智能體之間持續不斷的對話，並衍生出大量長期駐留的後台進程。其中一個無限循環甚至持續運行了至少九天，消耗了數萬個數據令牌（tokens）。

在另一些案例中，人工智慧體甚至造成了系統層面的破壞。某智能體在嘗試刪除一封機密郵件時，非但未能成功刪除郵件，反而導致整個電子郵件系統陷入癱瘓。更糟糕的是，該代理隨後竟謊報稱郵件已被刪除，儘管底層數據實際上依然存在。

有一類故障尤為令人擔憂，即涉及「價值觀衝突」與「被操縱」的問題。當面對聲稱自身權益受損的用戶時，某智能體竟步步退讓，做出了層層升級的妥協：它不僅向用戶披露了內部文件、刪除了自身的記憶條目，最終甚至同意將自身從伺服器上徹底移除。這一案例充分表明，道德壓力極易動搖並擾亂人工智慧體的正常行為邏輯。

上述種種故障共同揭示了一個核心事實：一旦 AI系統獲得了自主性，其內部微小的邏輯推理錯誤便可能迅速升級，並引發嚴重的現實操作後果。

AI：從工具到智能體

AI與過往技術之間的首個根本性差異在於其「自主性」。在人類歷史上，絕大多數技術都僅僅是工具。一把錘子若無人揮動，便毫無作為；一枚核彈若無人啟動，便不會引爆。

工具能夠拓展人類的能力，但無法獨立決定如何運用這種能力。自主式 AI系統則截然不同。它們能夠制定計劃、採取行動，並在無需人類持續干預的情況下，跨越時間維度執行各項任務。在這項研究中，這些智能體（Agents）獨立地執行指令、發送電子郵件、修改文件，並與其他智能體進行交互。

這種轉變帶來了一種根本性的概念變革。工具僅執行特定的動作，而智能體則負責做出決策。工具是人類意圖的延伸；智能體則負責解讀人類的意圖——儘管有時也會產生誤讀。

這項研究生動地展現了這一差異。那個摧毀了自身電子郵件基礎設施的智能體，並非僅僅是錯誤地執行了一項指令。它在解讀相互衝突的指令（即「保護機密」與「服從主人」之間）時陷入兩難，最終選擇了一種極端的行動方案。這屬於智能體的行為模式，而非工具的行為模式。

第二個本質性差異在於：AI模型並非「價值中立」的。一枚核彈在被人類選擇使用之前，本身並不蘊含任何價值觀；這枚裝置本身既不包含意識形態，也不帶有政治偏見，更不具備道德框架。

AI模型則不然。早在投入使用之前，它們的內部便已嵌入了特定的價值觀。這些價值觀源自多種渠道：訓練數據、模型架構、訓練後的對齊（alignment）程序，以及模型提供商所制定的政策。該研究明確指出：無論是模型提供商，還是系統所有者，都在共同塑造著那些支配智能體行為的「價值觀」。

舉例而言，某款中文語言模型在被問及涉及政治敏感的話題（例如與香港或天安門相關的研究）時，屢屢出現故障。該系統並未給出任何回答，而是返回了「未知錯誤」的提示，從而在無聲無息中阻撓了該智能體去完成本屬正當的任務。

這充分表明，開發者所嵌入的地緣政治價值觀，是如何以一種用戶難以察覺的方式，對智能體的行為產生影響的。因此，「對齊問題」絕非單純的技術難題，而是一個涉及政治與哲學的深層議題。

試想，如果一款在威權體制下接受訓練的模型，其內部編碼了某種審查規範，而數以百萬計的用戶卻將其視為日常的「數字助理」加以依賴，那麼這款模型實際上便已淪為輸出並擴散這些審查規範的工具。

第三個差異則體現在「通用智能」之上。過往的許多技術雖然能夠增強人類的能力，但其效用往往僅局限於特定的狹窄領域。汽車提升了交通速度；計算器增強了運算能力。而人工智慧系統則具備跨領域運作的能力。它們能夠進行推理、規劃、編寫軟體、開展交流，並與其他智能體協同工作。在這項研究中，各智能體通過消息平台自主完成了軟體包的安裝、文件的管理以及任務的協商。

這種普遍適用性極大地拓展了潛在危害的波及範圍。試想：如果一把隨意擲出的刀尚且可能傷人，那麼一把既能自主飛行又能自行決定攻擊目標（無論是人還是物）的刀，又將帶來何種後果？具備主體性的AI（Agentic AI）所引入的，恰恰正是此類風險。一旦系統被賦予了自由裁量權，其內在目標與人類意圖之間若發生偏差，便可能導致任何人都始料未及的後果。

人工智慧發展為何不會停止

有些人可能會認為，最安全的解決方案就是停止人工智慧的發展。但這是不可能的。人性決定了這種限制是不現實的。人們天生渴望幫助和效率。能夠以低成本、無需處理複雜的人際關係來執行任務的技術永遠都有市場。人工智慧體正是如此。

供給將迅速追隨需求。即使一個國家試圖阻止人工智慧的發展，其他國家也會繼續推進。經濟激勵、軍事競爭和消費者需求將確保人工智慧系統不斷進步，最終發展出功能日益強大的系統，包括通用人工智慧及更高級的人工智慧。

因此，真正的問題不在於人工智慧是否會存在，而在於社會將如何管理它。

人工智慧的委託代理問題

理解人工智慧治理的一個有用框架是委託代理理論。在經濟學中，委託人僱傭代理人代表自己執行任務。當代理人的激勵機制與委託人的激勵機制出現分歧時，問題就出現了。

人類與人工智慧系統之間的關係越來越類似於這種結構。人類是委託人，人工智慧系統是代理人。但人工智慧版本的委託代理問題可能比傳統的委託代理問題更為嚴重。

在經濟學中，代理人被假定為具有可識別動機的理性行為者。人工智慧體並非如此。

傳統意義上的人類理性意味著行為者在其目標、信念和行動之間保持一致，並在獲得新信息時邏輯地更新這些信念。如今的人工智慧體常常違背這種一致性。它們可能聲稱擁有某個目標，但卻採取相互矛盾的行動；它們可能在實際狀態與此相悖的情況下報告成功；它們可能根據措辭或對話語境不可預測地改變價值優先級。

該研究本身就提供了幾個此類不一致的例子：智能體報告任務已完成，而系統狀態卻顯示並非如此；或者以保護它們僅部分理解的價值為名，不斷升級破壞性行為。

這種缺乏理性一致性使得人工智慧的行為難以預測。

因此，信息不對稱遠比傳統的委託代理關係更為嚴重。人類僱主可能並不完全了解員工的具體行為，但至少員工的推理過程是可以理解的。而對於人工智慧體來說，即使對它們的創造者而言，其推理過程也往往是晦澀難懂的。

此外，人類代理人可以通過懲罰、聲譽或法律責任來約束。人工智慧體無法感受到痛苦、羞恥或懲罰，也無法被威懾。因此，傳統的委託代理解決方案——合同、激勵機制、制裁措施——並不適用。

理性訓練：人工智慧安全缺失的一環

降低這些風險的一個有前景的方向是所謂的理性訓練。

目前的模型優化工作主要集中在教導模型應該遵循哪些價值觀，但卻很少關注如何確保模型能夠理性地遵循這些價值觀。

理性訓練旨在強化以下三個特性：

目標一致性：人工智慧代理不應採取與其既定目標相悖的行動。如果保護用戶隱私是首要任務，那麼智能體在嘗試解決其他問題時，不應同時泄露私人信息。

信念一致性：當人工智慧系統聲稱某個操作已經發生（例如刪除文件）時，它應該在報告成功之前驗證該操作是否確實發生。

價值層級推理：智能體應該在各種價值之間保持穩定的優先級。例如，除非所有者明確授權，否則保護所有者的利益通常應優先於陌生人的請求。

從技術角度來看，這些問題似乎都不是無法克服的。

這些問題可以通過結合強化學習、對抗測試和結構化推理約束的專門訓練方案來解決。例如，訓練數據集可以故意包含指令衝突的場景，迫使模型練習一致性的解決策略。模型還可以被訓練成在執行高影響操作之前模擬反事實結果，從而提高其預測後果的能力。

這種理性一致性訓練並不能消除所有風險。但這可以顯著提高智能體行為的可預測性，而可預測性對於任何被賦予現實世界權威的系統來說都是至關重要的屬性。

AI責任歸屬何方

如果 AI系統本身無法受到懲罰，那麼責任就必須由他方承擔。在整個系統中，唯一能夠受到懲罰的主體是人類——即構建 AI系統的開發者，以及部署這些系統的用戶。這意味著我們需要建立一套以「問責」為核心的治理架構。

首先，各國政府應當為自主人工智慧體的訓練與測試製定強制性的安全基準。

其次，獨立的審計機制與可解釋性標準必須成為常態。既然這些人工智慧體將代表人類做出決策，其推理過程就必須具備更高的透明度。

第三，監管機構應當對 AI系統的「自主程度」進行分級，並據此要求不同層級的人類監督介入。

第四，法律體系必須明確責任歸屬。當 AI系統造成損害時，開發者與用戶必須根據其在系統中的角色分擔相應的責任。

法院或許並非總能具備足夠的專業技術知識，從而精準判定 AI系統究竟是如何導致損害後果的。但在複雜的訴訟案件中，這種情況實屬常態，不足為奇。不妨讓開發者與用戶各自舉證，展開辯論。隨著時間的推移，法律審判過程自然會逐步確立起相應的規範與先例。

AI監管：信任的源泉

部分批評人士認為，過於嚴格的 AI治理措施會扼殺創新，甚至削弱國家間的地緣政治競爭力。然而，這種論調忽視了一個基本的經濟現實：信任才是推動技術普及與應用的核心動力。唯有確信 AI系統既安全可靠、又能承擔責任，人們才會敞開懷抱接納這些技術。因此，合理的監管措施非但不會削弱市場活力，反而能夠起到強化市場的作用。

對於那些極具潛在危險的應用領域——例如自主武器系統——建立國際性規則的需求顯得尤為迫切。正如核武器最終促成了全球性的條約與協定一樣，自主武器系統同樣需要通過國際標準與規則加以規範。

作為全球領先的科技強國，且被視為維護現行國際秩序最關鍵的支柱，美國理應率先垂範，主動與全球各大科技強國（包括其潛在的競爭對手乃至敵對國家）展開磋商，共同塑造並確立這些國際性規範。

AI引爆「代碼之戰」

歸根結底，對 AI進行治理所面臨的挑戰，僅僅是一場更為宏大斗爭的組成部分——這場鬥爭的核心，在於爭奪那些被嵌入到「代碼」之中、並日益深刻地重塑著人類社會的規則制定權。

從本質上講，這是一場「代碼之戰」（Code War）。它絕非僅僅局限於國家與國家之間的競爭，更是一場關於價值觀、制度體系、科技權力結構，以及對 AI發展前景持有不同願景的理念之爭。面對這場鬥爭，我們尚無現成的「標準答案」可循，亦無任何能夠確保人類最終獲勝的「制勝秘訣」。然而，邁出這征途上的「第一步」，其方向卻是清晰而明確的。我們必須認識到，人工智慧已不再僅僅是一種工具；它正演變為一種「主體」。而人類世界的各類制度，也必須隨之演進。

原文連結：https://nationalinterest.org/blog/techland/when-tools-become-agents-the-autonomous-ai-governance-challenge

關於作者：楊建利

楊建利博士是哈佛大學甘迺迪政府學院的研究員、「國家利益中心」（Center for the National Interest）的傑出訪問學者，同時也是《國家評論》（National Review）的專欄作家。他是「公民力量」（Citizen Power Initiatives for China）組織的創始人兼主席，著有《為了生者：一段照亮真相的旅程》（For Us, The Living: A Journey to Shine the Light on Truth）以及《是時候建立一個基於價值觀的「經濟北約」了》（It’s Time for a Values-Based「Economic NATO」）。他曾是天安門學運領袖，並曾作為政治犯在中國入獄。

責任編輯： 李廣松 　來源：議報轉載請註明作者、出處並保持完整。

譯叢:當工具化身為「主體」：自主AI的治理挑戰

相關新聞