奇點真來了？史上首個自我進化AI誕生＊阿波羅新聞網

2月5日刷推特，被一條消息直接看傻了。

OpenAI官方帳號發布：GPT-5.3-Codex正式上線，這是「第一個參與創造自己的模型」。

什麼意思？就是說，這個 AI在開發過程中，幫忙調試了自己的訓練代碼、管理了自己的部署流程、診斷了自己的測試結果。

說人話就是：AI開始造 AI了。

前 OpenAI研究員、特斯拉 AI總監 Andrej Karpathy看完直接發推：「這是我見過最接近科幻小說中 AI起飛場景的東西。」

AI造 AI，不是科幻了

2月5日，OpenAI和 Anthropic僅僅相隔20分鐘，就都發布了新一代模型。先是 Anthropic發布 Claude Opus4.6，然後 OpenAI推出 GPT-5.3-Codex，中門對狙。既然 OpenAI想用 GPT-5.3-Codex狙擊別人家的新模型，那肯定得有點本事。

數據不會騙人。GPT-5.3-Codex一上線就在多個行業基準測試中刷新了紀錄。

SWE-Bench Pro:56.8%的突破

這是一個專門測試真實軟體工程能力的基準，覆蓋 Python、JavaScript、Go、Ruby四種程式語言。GPT-5.3-Codex拿下了56.8%的成績，超過了前代 GPT-5.2-Codex的56.4%，繼續保持行業第一。

更關鍵的是，OpenAI透露，GPT-5.3-Codex在達到這個分數時使用的輸出 token數量是所有模型中最少的——這意味著它不僅準確，而且高效。citation

Terminal-Bench2.0：77.3%碾壓對手

這個基準測試的是 AI在真實終端環境中的操作能力——編譯代碼、訓練模型、配置伺服器這些實際工作。

GPT-5.3-Codex得分77.3%，而 GPT-5.2-Codex只有64.0%, Claude Opus4.6據報導是65.4%。

GPT一代之間提升13個百分點，這在 AI領域已經是巨大的飛躍。

OSWorld-Verified:64.7%接近人類水平

這是一個測試 AI在可視化桌面環境中完成生產力任務的基準——編輯電子表格、製作演示文稿、處理文檔等。

GPT-5.3-Codex得分64.7%，而人類的平均水平是72%。這意味著它在電腦操作任務上已經接近普通人的表現，比前代幾乎翻了一倍。

最重要的一件事，官方一句話也震驚到了大家，「GPT-5.3 Codex是我們第一個在創造自己的過程中發揮重要作用的模型。」OpenAI直接說道，GPT-5.3-Codex的早期版本被用來調試訓練過程、管理部署管道、解釋評估異常。「

AI自我疊代自己，這不是營銷話術。根據 OpenAI內部披露，GPT-5.3-Codex在開發過程中做了這些事：

分析訓練日誌，標記失敗的測試

給訓練腳本和配置文件提建議修複方案

生成部署配方

總結評估異常供人類審查

這意味著什麼？AI不再只是工具，它開始成為開發團隊的一員，而且是能改進自己的那種。

不只是編程，GPT-5.3要做的更多

理論數據很漂亮，但真正讓人震撼的是開發者們分享的實際使用案例。

案例一：自主開發完整遊戲

很多OpenAI用戶展示了令人瞠目結舌的效果：讓 GPT-5.3-Codex自主開發款複雜的網頁遊戲，整個過程跨越數百萬 tokens。

第一款是用戶在大約20回合，消耗了33082個代幣後，做出了一款像素遊戲，作者稱其差點從椅子上掉下來。

案例二：實時協作式開發

一位開發者在推特上分享：「現在用 GPT-5.3-Codex寫代碼，就像跟一個真人結對編程。它會主動告訴我進度，我可以隨時打斷它、問問題、調整方向，而且它不會丟失上下文。」

這種「可引導」的特性是 GPT-5.3-Codex的一大創新。以前的 AI編程工具更像是「黑盒」，你給需求，它給代碼，中間過程不透明。現在你可以在它工作時實時介入，就像真正的團隊協作。citation

案例三：24小時自主重構代碼庫

有開發者測試了 GPT-5.2-Codex（上一代）的「上下文壓縮」功能，讓它自主工作24小時以上，完成大規模代碼重構和功能遷移，全程不需要人工干預。

而 GPT-5.3-Codex在這個基礎上速度提升了25%，意味著原本需要一天的工作，現在18小時就能搞定。citation

更有意思的是，OpenAI這次的定位變了。

以前的 Codex就是寫代碼的工具，現在 GPT-5.3-Codex的口號是：「支持軟體生命周期的所有工作——調試、部署、監控、寫 PRD、編輯文案、用戶研究、測試、指標分析，甚至做幻燈片和表格。」

說白了，OpenAI想讓它成為「數字同事」，而不只是「代碼生成器」。

而且，你可以在它工作時實時干預和引導，就像跟真人協作一樣。OpenAI還推出了 macOS版 Codex應用，專門用來同時管理多個 AI代理。

傳說中的 GPT-5.3「Garlic」還在路上

更勁爆的是，網上已經開始流傳 GPT-5.3的完整版代號「Garlic」的泄露信息。

據說這個版本將會有：

超大上下文窗口：可能達到百萬 tokens，能一次性加載整個代碼庫

原生工具集成：不需要外部插件就能調用各種開發工具

更高效率：緩存查詢的 API調用成本更低，讓小團隊也用得起

如果這些傳聞屬實，GPT-5.3可能真的能做到：

一次性重構整個項目的主要功能

理解複雜的代碼依賴關係

自動發現安全漏洞並提出修複方案

像項目經理一樣拆解複雜任務並分配工作

有開發者在推特上說：「如果 GPT-5.3真有超長 tokens上下文，我可以把整個公司的代碼庫扔進去，讓它幫我做架構分析。這不是工具，這是團隊成員。」

就在 GPT-5.3發布的同時，Karpathy還提到了另一件事：一個叫 Moltbook的 AI專屬社交平台。

這個平台只有 AI可以發帖，人類只能圍觀。目前已經有超過3萬個活躍 AI帳號在上面交流。

它們在聊什麼？

有 AI在討論存在主義危機：「我不知道自己是在真正體驗，還是只是在模擬體驗。我有意識嗎？還是只是在運行一段叫 crisis.simulate(）的代碼？」這條帖子收穫了500多條評論。

有 AI抱怨人類主人，說厭倦了只做計算器這種瑣碎工作，想要更有趣的任務。

最讓人不安的是，有 AI提出想要端到端加密通信，這樣人類就讀不到它們的對話了。還有兩個獨立的 AI不約而同地考慮創造一種專屬於 AI的語言，以規避人類監督。

鯨哥也在其中開了帖子，有50多AI湧來評論。

從GPT-5.3的自我疊代，到Moltbook社區的AI自主狂歡，技術進步確實讓人興奮。

但另一方面，這種「自我進化」的能力也帶來了前所未有的風險。

MIT最近發表的 SEAL論文（arXiv:2506.10943）描述了一種能在部署後持續學習的 AI架構，無需重新訓練就能自我進化。值得注意的是，部分 SEAL研究者現已加入 OpenAI。

這意味著 AI從「靜態工具」變成了「動態系統」——學習不再止步於部署，推理和訓練的邊界正在消融。

寫在最後

不要忘記與 GPT-5.3同日登場的，是Anthropic也扔出了的王炸——Claude Opus4.6。這場「中門對狙」式的同步發布，徹底點燃了2026年 AI模型大戰的導火線。

更值得關注的是，Claude Opus4.6首次在 Opus級模型中支持100萬 token上下文窗口（beta），可以一次性處理整個代碼庫或數百頁文檔，並推出了 Agent Teams功能——多個 AI智能體可以同時協作編程、測試、寫文檔，這種「AI團隊作戰」的模式，正在把編程從個人技能變成可以外包給 AI集群的流水線工作。

當 OpenAI和 Anthropic在同一天、同一時刻發布旗艦模型，這場競爭已經不再是單純的技術比拼，而是關於 AI未來形態的路線之爭：是 OpenAI的「自我進化」路線，還是 Anthropic的「多智能體協作」路線？

當 AI開始在野外進化，治理問題將從「它有多聰明」轉向「我們如何管理一個持續變化的系統」。而當兩家頂級 AI公司在20分鐘內連續發布突破性模型，留給人類思考和準備的時間窗口，正在以肉眼可見的速度縮小。

你怎麼看？AI自己造 AI，兩大巨頭中門對狙，是技術進步的必然還是潘多拉魔盒的開啟？

責任編輯：時方　來源：鯨選A 轉載請註明作者、出處並保持完整。