新聞 > 科教 > 正文

當AI開始造AI,Anthropic呼籲緊急剎車

今天凌晨,Anthropic在官方博客發布了一篇長文,標題名為《When AI Builds Itself》(當 AI開始建造自己)。目前瀏覽量已接近700萬。

文章由公司聯合創始人 Jack Clark與內部研究機構 The Anthropic Institute負責人 Marina Favaro共同署名。核心觀點可以用一句話概括:AI正加速參與到自身的開發進程當中。如果這個趨勢走到極端,AI將能夠在沒有人類介入的情況下,自主設計、測試並訓練出更強大的下一代 AI。基於這一判斷,Anthropic呼籲全球主要 AI實驗室考慮暫停 AI開發,或者至少建立一套可以互相核查的減速機制。

這番表態之所以格外引人關注,不僅因為內容,也因為說這番話的是 Anthropic。

就在文章發布前幾天,Anthropic剛剛完成最新一輪融資,估值達到9,650億美元,正式超過 OpenAI。同一周,公司向美國證券交易委員會秘密遞交了 S-1註冊聲明草案,啟動 IPO籌備流程。Anthropic的年化營收正快速攀升,從2025年底的約90億美元增長到當前的接近470億美元,預計本月底將突破500億美元。在公司即將衝擊公開市場、商業勢能最強的時候,卻發出「請考慮減速」的信號,很難讓人不疑惑其動機。

不過在討論動機之前,不能否認的是,這篇文章確實拿出了實打實的內部數據。而這些數據之所以重要,是因為它們指向了一個越來越明確的趨勢:AI研發自動化。

AI研發自動化正在成為行業共識

Anthropic的文章主要圍繞一個概念展開——「遞歸自我改進」(Recursive Self-Improvement,簡稱 RSI),指的是 AI系統自主完成設計、測試、訓練下一代 AI的完整流程,人類不再扮演關鍵角色。這個概念並不新鮮,但過去一年裡,它正從理論走向現實。幾乎所有頭部 AI公司都在往這個方向投入資源。

以 OpenAI為例,這家公司已經將「AI參與 AI研發」列入重點關注事項。其安全團隊專門設立了「Recursive Self-Improvement Preparedness(遞歸自我改進準備)」相關崗位,用於研究當 AI能夠顯著加速自身研發時可能帶來的能力躍遷與風險。OpenAI此前公開透露,其內部目標是在2026年前後打造達到「研究實習生」水平的 AI系統,並在2028年實現能夠獨立承擔研究任務的自動化 AI研究員。

Google DeepMind走的是一條更偏算法發現的路線。它的 AlphaEvolve項目讓 AI自主提出算法方案、運行實驗、篩選結果,再將優秀方案反饋回系統繼續疊代。這套系統已經被用於數據中心調度優化和 AI訓練效率提升等實際場景,據報導還找到了56年來首個對 Strassen矩陣乘法算法的改進。從某種意義上說,這也是 DeepMind對「奇點」判斷的重要依據之一:當 AI開始參與甚至推動新的科學發現和算法創新時,技術進步將進入加速循環。

頭部公司之外,越來越多創業公司也開始圍繞「自動化 AI研發」布局。例如近期獲得大額融資的 Recursive Superintelligence,以及將「構建擅長 AI研發的系統」寫入公司使命的 Mirendil,都是這一趨勢的代表。雖然技術路徑各不相同,但它們瞄準的是同一個目標:讓 AI從研發工具變成研發過程的參與者,並最終承擔越來越多的研發工作。

正是在這個背景下,Anthropic發布了這篇長文。它的立場是:RSI還沒有發生,也不一定會發生,但它到來的速度「可能比大多數機構準備好的時間更快」。

AI已經在多大程度上接管了 AI研發?

在文章中,它用三組此前未公開的內部數據支撐了這個判斷。

第一組數據是關於 AI的代碼能力。截至2026年5月,Anthropic合併到生產代碼庫中的代碼有超過80%由 Claude編寫。2025年2月 Claude Code上線之前,這個比例還是個位數。與之對應,2026年第二季度工程師人均每天合併的代碼量達到2024年的8倍。文章專門補充說明:代碼行數衡量的是數量而非質量,8倍很可能高估了真實的生產力提升。但趨勢是明晰的:工程師的角色正在從「寫代碼」轉向「指引方向和審查結果」。

而且 Claude寫的代碼質量還在快速提升。Anthropic內部跟蹤了工程師在 Claude Code工作過程中需要糾正或中途接管的頻率,這個頻率在過去一年持續下降。到2026年5月,Claude處理最高難度開放式任務的成功率達到76%,六個月內上升了50個百分點。

(來源:Anthropic)

第二組數據涉及了 AI的科研能力。Anthropic有一個內部基準測試:給 Claude一段訓練小型 AI模型的 CPU代碼,要求它在不改變正確性的前提下儘可能提速。2025年5月,Claude Opus4的平均加速比約為3倍;到2026年4月,Claude Mythos Preview達到了約52倍。

作為參照,一名熟練的人類研究員通常需要四到八小時才能達到約4倍加速。Anthropic提醒,絕對倍數受起始代碼優化空間的影響,不應直接解讀為真實世界的訓練加速,但在同一測試條件下,一年內從3倍到52倍的變化,這個結果值得重視。

第三組數據來自工程實踐。2026年4月,Claude自主修復了超過800個 API錯誤,將該類錯誤的發生率降低了約1,000倍。負責的工程師估計,同樣的工作讓人來做大概需要四年。因為修復別人寫的 Bug實在是一個漫長而痛苦的過程,人類也很難同時記下那麼多不熟悉的代碼上下文,可這類任務恰恰是 AI的優勢所在。

文章還公布了一個頗有意思的實驗。2026年4月,研究人員將多個 Claude智能體交給一個 AI安全領域的開放問題:弱模型能否可靠地監督強模型?智能體自行提出假設、設計實驗、運行測試,在並行智能體之間共享發現并迭代。兩位人類研究員花了一周時間,彌補了該任務性能上下限之間約23%的差距;Claude智能體累計運行800小時後,彌補了97%的差距。

更值得注意的是,AI提升的不只是執行能力,連「下一步該做什麼」的判斷能力也在同步增強。Anthropic內部的一項回溯評測顯示,當研究人員在項目推進過程中走入錯誤方向時,Claude越來越能夠提出更優的替代方案。最新模型 Claude Mythos Preview給出的研究路徑,有64%的概率被評審認為優於人類研究者當時的實際選擇。這意味著 AI開始不僅能幫助研究者完成工作,也正在越來越多地參與研究方向本身的選擇。

(來源:Anthropic)

這些數據拼在一起,指向的是同一個大的趨勢:AI正在接管越來越多原本由研究人員親自完成的工作。寫代碼、調試系統、運行實驗、分析結果,這些過去占據大量時間的研發環節,正越來越多地由 AI完成。人類的角色則逐漸從執行者轉向監督者和決策者。

正因為如此,此前 Jack Clark對遞歸自我改進的時間表判斷相當激進。他在2026年5月的 newsletter中估計,到2028年底出現完全自動化 AI研發的概率約為60%,到2027年底約為30%。

如果 Clark的判斷成立,那麼問題很快就會從「RSI是否可能出現」變成「當它真的出現時怎麼辦」。因此,Anthropic這篇文章真正想討論的,其實不只是技術,還有技術發展過快之後的治理問題。

在文章中,Anthropic提出了三種可能的未來:第一種是 AI能力增長逐漸放緩,但現有能力已經足以廣泛擴散;第二種是 AI繼續帶來複合型效率提升,人類仍負責設定研究方向,但越來越多執行環節被自動化;第三種,也是最激進的一種,是 AI系統真正具備完整的遞歸自我改進能力,開始自主構建下一代模型。Anthropic最擔心的是後兩種情形,因為它們留給社會、政府和安全研究的準備時間都非常有限。

在文章最後,Anthropic將問題的答案落到「減速」與「核查」上。它認為,如果能有效放慢前沿 AI開發,讓社會制度和對齊研究跟上技術進展,這很可能是一件好事。但單方面暫停意義有限,因為它只會改變誰是領先者,並不會讓整個行業獲得真正的討論時間。真正有用的暫停,必須是多國、多家前沿實驗室在相同條件下共同減速,並且能夠彼此驗證對方確實停了下來。

呼籲暫停的人,未必能停下

但回到開頭的問題,作為一家勢頭正猛且即將上市的公司,Anthropic呼籲停止 AI開發的動機真的如此純粹嗎?

公開討論前沿 AI的潛在風險,確實是 Anthropic的一貫作風。從成立至今,這家公司確實已經多次發布關於模型能力、安全治理和監管框架的研究與政策文件。只不過這一次,它討論的對象從 AGI進一步推進到了 RSI。

聯創 Clark在接受 Axios採訪時解釋說:「我們一直發現,最好的做法是讓大家理解這個概念,讓人們了解即將發生什麼。」他說文章背後的核心判斷是,「與一些流行觀點相反,AI進步在未來幾年將會加速,保持不變或放緩的可能性不大。」他還表示,Anthropic希望立法者在真正頻繁聽到「遞歸自我改進」之前,就提前了解這個話題。

但這個解釋顯然無法消除所有質疑。

風險投資人 David Sacks,他同時也是川普的重要科技顧問。近期就在播客中公開批評 Anthropic。他認為,所謂全球核查機制聽上去是在防範風險,但實際效果很可能是抬高行業門檻。按照他的邏輯,能夠滿足審查、合規和安全要求的,往往是 Anthropic、OpenAI、Google等擁有雄厚資金和算力的大公司;而開源模型天然分散在全球各地運行,很難被統一監管。最終的結果,可能不是讓 AI更安全,而是讓少數頭部公司獲得更大的優勢。

此前,類似的質疑也出現在產品層面。例如在推出網絡安全模型 Mythos時,Anthropic對模型訪問權限進行了嚴格限制,理由是其能力過於強大,可能被用於攻擊關鍵基礎設施。支持者認為這是負責任的安全措施,但批評者則質疑,公司是否在有意強化「危險但先進」的形象,以突出自身技術領先地位。

沃頓商學院教授 Ethan Mollick對這些矛盾的態度給出了自己的解釋。他認為,Anthropic內部實際上同時存在多種力量。一部分人像其他科技公司一樣負責商業化、市場和法律事務;一部分研究人員專注於打造更強大的下一代模型;還有一部分人則真正關心 AI長期可能帶來的社會影響與風險。在 Mollick看來,這些群體並不總是立場一致。Anthropic之所以經常呈現出一邊加速推進模型能力、一邊公開討論潛在風險的矛盾形象,很大程度上正是這種內部張力的結果。

但還有一個更現實的問題:即便所有人都相信風險存在,真的有人能停下來嗎?當所有參與者都處於激烈競爭的環境裡,「誰在別人暫停時繼續跑,誰就可能繼承領先地位」。

文章最後提出的方案是,Anthropic將在未來數月組織政策制定者、研究人員以及其他 AI公司參與討論,探索構建一套可核查的暫停機制。按照設想,多個國家的多個前沿實驗室需要在相同條件下同時停止開發,並且每一方都能驗證其他參與者確實停了下來。如果這樣的機制存在,Anthropic表示自己「預計會減速或暫停」。

「如果」二字,看似輕鬆,卻承載了巨大的重量。歷史上,無論是核軍控還是其他國際技術治理體系,都花費了數十年時間才建立起核查機制、執行能力和跨國信任。而 AI的擴散速度遠快於這些先例,「如果」真正要讓整個行業一起踩下剎車,可能比實現 RSI還要困難。

責任編輯: 李華  來源:MIT科技評論 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2026/0606/2392604.html