當AI開始造AI，Anthropic呼籲緊急剎車＊阿波羅新聞網

今天凌晨，Anthropic在官方博客發布了一篇長文，標題名為《When AI Builds Itself》（當 AI開始建造自己）。目前瀏覽量已接近700萬。

文章由公司聯合創始人 Jack Clark與內部研究機構 The Anthropic Institute負責人 Marina Favaro共同署名。核心觀點可以用一句話概括：AI正加速參與到自身的開發進程當中。如果這個趨勢走到極端，AI將能夠在沒有人類介入的情況下，自主設計、測試並訓練出更強大的下一代 AI。基於這一判斷，Anthropic呼籲全球主要 AI實驗室考慮暫停 AI開發，或者至少建立一套可以互相核查的減速機制。

這番表態之所以格外引人關注，不僅因為內容，也因為說這番話的是 Anthropic。

就在文章發布前幾天，Anthropic剛剛完成最新一輪融資，估值達到9,650億美元，正式超過 OpenAI。同一周，公司向美國證券交易委員會秘密遞交了 S-1註冊聲明草案，啟動 IPO籌備流程。Anthropic的年化營收正快速攀升，從2025年底的約90億美元增長到當前的接近470億美元，預計本月底將突破500億美元。在公司即將衝擊公開市場、商業勢能最強的時候，卻發出「請考慮減速」的信號，很難讓人不疑惑其動機。

不過在討論動機之前，不能否認的是，這篇文章確實拿出了實打實的內部數據。而這些數據之所以重要，是因為它們指向了一個越來越明確的趨勢：AI研發自動化。

AI研發自動化正在成為行業共識

Anthropic的文章主要圍繞一個概念展開——「遞歸自我改進」（Recursive Self-Improvement，簡稱 RSI），指的是 AI系統自主完成設計、測試、訓練下一代 AI的完整流程，人類不再扮演關鍵角色。這個概念並不新鮮，但過去一年裡，它正從理論走向現實。幾乎所有頭部 AI公司都在往這個方向投入資源。

以 OpenAI為例，這家公司已經將「AI參與 AI研發」列入重點關注事項。其安全團隊專門設立了「Recursive Self-Improvement Preparedness（遞歸自我改進準備）」相關崗位，用於研究當 AI能夠顯著加速自身研發時可能帶來的能力躍遷與風險。OpenAI此前公開透露，其內部目標是在2026年前後打造達到「研究實習生」水平的 AI系統，並在2028年實現能夠獨立承擔研究任務的自動化 AI研究員。

Google DeepMind走的是一條更偏算法發現的路線。它的 AlphaEvolve項目讓 AI自主提出算法方案、運行實驗、篩選結果，再將優秀方案反饋回系統繼續疊代。這套系統已經被用於數據中心調度優化和 AI訓練效率提升等實際場景，據報導還找到了56年來首個對 Strassen矩陣乘法算法的改進。從某種意義上說，這也是 DeepMind對「奇點」判斷的重要依據之一：當 AI開始參與甚至推動新的科學發現和算法創新時，技術進步將進入加速循環。

頭部公司之外，越來越多創業公司也開始圍繞「自動化 AI研發」布局。例如近期獲得大額融資的 Recursive Superintelligence，以及將「構建擅長 AI研發的系統」寫入公司使命的 Mirendil，都是這一趨勢的代表。雖然技術路徑各不相同，但它們瞄準的是同一個目標：讓 AI從研發工具變成研發過程的參與者，並最終承擔越來越多的研發工作。

正是在這個背景下，Anthropic發布了這篇長文。它的立場是：RSI還沒有發生，也不一定會發生，但它到來的速度「可能比大多數機構準備好的時間更快」。

AI已經在多大程度上接管了 AI研發？

在文章中，它用三組此前未公開的內部數據支撐了這個判斷。

第一組數據是關於 AI的代碼能力。截至2026年5月，Anthropic合併到生產代碼庫中的代碼有超過80%由 Claude編寫。2025年2月 Claude Code上線之前，這個比例還是個位數。與之對應，2026年第二季度工程師人均每天合併的代碼量達到2024年的8倍。文章專門補充說明：代碼行數衡量的是數量而非質量，8倍很可能高估了真實的生產力提升。但趨勢是明晰的：工程師的角色正在從「寫代碼」轉向「指引方向和審查結果」。

而且 Claude寫的代碼質量還在快速提升。Anthropic內部跟蹤了工程師在 Claude Code工作過程中需要糾正或中途接管的頻率，這個頻率在過去一年持續下降。到2026年5月，Claude處理最高難度開放式任務的成功率達到76%，六個月內上升了50個百分點。

（來源：Anthropic）

第二組數據涉及了 AI的科研能力。Anthropic有一個內部基準測試：給 Claude一段訓練小型 AI模型的 CPU代碼，要求它在不改變正確性的前提下儘可能提速。2025年5月，Claude Opus4的平均加速比約為3倍；到2026年4月，Claude Mythos Preview達到了約52倍。

作為參照，一名熟練的人類研究員通常需要四到八小時才能達到約4倍加速。Anthropic提醒，絕對倍數受起始代碼優化空間的影響，不應直接解讀為真實世界的訓練加速，但在同一測試條件下，一年內從3倍到52倍的變化，這個結果值得重視。

第三組數據來自工程實踐。2026年4月，Claude自主修復了超過800個 API錯誤，將該類錯誤的發生率降低了約1,000倍。負責的工程師估計，同樣的工作讓人來做大概需要四年。因為修復別人寫的 Bug實在是一個漫長而痛苦的過程，人類也很難同時記下那麼多不熟悉的代碼上下文，可這類任務恰恰是 AI的優勢所在。

文章還公布了一個頗有意思的實驗。2026年4月，研究人員將多個 Claude智能體交給一個 AI安全領域的開放問題：弱模型能否可靠地監督強模型？智能體自行提出假設、設計實驗、運行測試，在並行智能體之間共享發現并迭代。兩位人類研究員花了一周時間，彌補了該任務性能上下限之間約23%的差距；Claude智能體累計運行800小時後，彌補了97%的差距。

更值得注意的是，AI提升的不只是執行能力，連「下一步該做什麼」的判斷能力也在同步增強。Anthropic內部的一項回溯評測顯示，當研究人員在項目推進過程中走入錯誤方向時，Claude越來越能夠提出更優的替代方案。最新模型 Claude Mythos Preview給出的研究路徑，有64%的概率被評審認為優於人類研究者當時的實際選擇。這意味著 AI開始不僅能幫助研究者完成工作，也正在越來越多地參與研究方向本身的選擇。

（來源：Anthropic）

這些數據拼在一起，指向的是同一個大的趨勢：AI正在接管越來越多原本由研究人員親自完成的工作。寫代碼、調試系統、運行實驗、分析結果，這些過去占據大量時間的研發環節，正越來越多地由 AI完成。人類的角色則逐漸從執行者轉向監督者和決策者。

正因為如此，此前 Jack Clark對遞歸自我改進的時間表判斷相當激進。他在2026年5月的 newsletter中估計，到2028年底出現完全自動化 AI研發的概率約為60%，到2027年底約為30%。

如果 Clark的判斷成立，那麼問題很快就會從「RSI是否可能出現」變成「當它真的出現時怎麼辦」。因此，Anthropic這篇文章真正想討論的，其實不只是技術，還有技術發展過快之後的治理問題。

在文章中，Anthropic提出了三種可能的未來：第一種是 AI能力增長逐漸放緩，但現有能力已經足以廣泛擴散；第二種是 AI繼續帶來複合型效率提升，人類仍負責設定研究方向，但越來越多執行環節被自動化；第三種，也是最激進的一種，是 AI系統真正具備完整的遞歸自我改進能力，開始自主構建下一代模型。Anthropic最擔心的是後兩種情形，因為它們留給社會、政府和安全研究的準備時間都非常有限。

在文章最後，Anthropic將問題的答案落到「減速」與「核查」上。它認為，如果能有效放慢前沿 AI開發，讓社會制度和對齊研究跟上技術進展，這很可能是一件好事。但單方面暫停意義有限，因為它只會改變誰是領先者，並不會讓整個行業獲得真正的討論時間。真正有用的暫停，必須是多國、多家前沿實驗室在相同條件下共同減速，並且能夠彼此驗證對方確實停了下來。

呼籲暫停的人，未必能停下

但回到開頭的問題，作為一家勢頭正猛且即將上市的公司，Anthropic呼籲停止 AI開發的動機真的如此純粹嗎？

公開討論前沿 AI的潛在風險，確實是 Anthropic的一貫作風。從成立至今，這家公司確實已經多次發布關於模型能力、安全治理和監管框架的研究與政策文件。只不過這一次，它討論的對象從 AGI進一步推進到了 RSI。

聯創 Clark在接受 Axios採訪時解釋說：「我們一直發現，最好的做法是讓大家理解這個概念，讓人們了解即將發生什麼。」他說文章背後的核心判斷是，「與一些流行觀點相反，AI進步在未來幾年將會加速，保持不變或放緩的可能性不大。」他還表示，Anthropic希望立法者在真正頻繁聽到「遞歸自我改進」之前，就提前了解這個話題。

但這個解釋顯然無法消除所有質疑。

風險投資人 David Sacks，他同時也是川普的重要科技顧問。近期就在播客中公開批評 Anthropic。他認為，所謂全球核查機制聽上去是在防範風險，但實際效果很可能是抬高行業門檻。按照他的邏輯，能夠滿足審查、合規和安全要求的，往往是 Anthropic、OpenAI、Google等擁有雄厚資金和算力的大公司；而開源模型天然分散在全球各地運行，很難被統一監管。最終的結果，可能不是讓 AI更安全，而是讓少數頭部公司獲得更大的優勢。

此前，類似的質疑也出現在產品層面。例如在推出網絡安全模型 Mythos時，Anthropic對模型訪問權限進行了嚴格限制，理由是其能力過於強大，可能被用於攻擊關鍵基礎設施。支持者認為這是負責任的安全措施，但批評者則質疑，公司是否在有意強化「危險但先進」的形象，以突出自身技術領先地位。

沃頓商學院教授 Ethan Mollick對這些矛盾的態度給出了自己的解釋。他認為，Anthropic內部實際上同時存在多種力量。一部分人像其他科技公司一樣負責商業化、市場和法律事務；一部分研究人員專注於打造更強大的下一代模型；還有一部分人則真正關心 AI長期可能帶來的社會影響與風險。在 Mollick看來，這些群體並不總是立場一致。Anthropic之所以經常呈現出一邊加速推進模型能力、一邊公開討論潛在風險的矛盾形象，很大程度上正是這種內部張力的結果。

但還有一個更現實的問題：即便所有人都相信風險存在，真的有人能停下來嗎？當所有參與者都處於激烈競爭的環境裡，「誰在別人暫停時繼續跑，誰就可能繼承領先地位」。

文章最後提出的方案是，Anthropic將在未來數月組織政策制定者、研究人員以及其他 AI公司參與討論，探索構建一套可核查的暫停機制。按照設想，多個國家的多個前沿實驗室需要在相同條件下同時停止開發，並且每一方都能驗證其他參與者確實停了下來。如果這樣的機制存在，Anthropic表示自己「預計會減速或暫停」。

「如果」二字，看似輕鬆，卻承載了巨大的重量。歷史上，無論是核軍控還是其他國際技術治理體系，都花費了數十年時間才建立起核查機制、執行能力和跨國信任。而 AI的擴散速度遠快於這些先例，「如果」真正要讓整個行業一起踩下剎車，可能比實現 RSI還要困難。

責任編輯：李華　來源：MIT科技評論轉載請註明作者、出處並保持完整。