別神話LLM，AGI還要等十年科教頻道|科教興國|教育新聞☀阿波羅新聞網

AGI並非明天到，但也不是海市蜃樓。Karpathy直言：通往 AGI 的路已出現，卻布滿硬骨頭——強化學習信號稀薄、模型崩塌風險、環境與評估匱乏、系統集成與安全難題等。他給出一個「樂觀而不煽情」的時間表：10年。

最近幾天，OpenAI的創始元老、特斯拉前深度學習負責人Karpathy，公開表示：AGI仍有十年之遙。

Karpathy批評業界高估了當前的AI的智能水平，但同時他認為通向AGI之路已經出現，但這條路並非坦途。

Karpathy解釋了實現AGI的眾多難題：

為什麼強化學習很糟糕（不過其他方法更糟）、

為什麼模型崩塌會阻止大語言模型像人類那樣學習、

為什麼AGI只會融入過去約2.5個世紀以來每年約2%的GDP增長趨勢、

為什麼自動駕駛花了這麼久才被攻克。

這些問題很難，所以大概實現AGI還需要10年。這被普遍解讀為看衰AI，給當前AGI狂熱澆下一盆冷水。

馬斯克點名Karpathy迎戰Grok 5

馬斯克認為，Karpathy的確有些觀點不錯。

但隨後，馬斯克話鋒一轉，點名卡帕西和Grok 5來場編程大戰，類似於西洋棋大師卡斯帕羅夫與深藍的對決時刻。

不過，Karpathy拒絕了馬斯克的挑戰，並表示我寧願與Grok 5合作，也不願與它競爭

考慮到馬斯克認為目前Grok 5實現AGI的概率只有10%，但要Grok 5在編程上挑戰Karpathy。

或許，AI初創Yuchen Jin的推文很好解釋馬斯克為何如此做：

馬斯克在用他的「現實扭曲立場」，在推動xAI團隊實現「不可能的目標」。

智能體工程師Dan Mac表示，Karpathy在斷言，現在正處於LLM炒作的「幻滅低谷期」。

這更像一種現實主義：與其擺擂台，不如把工具打磨好。

看起來，Karpathy有力支持了LLM懷疑論者——那些人可能正在慶祝「AI無用論」的勝利。

這令人沮喪。尤其是當你關心AI，並看到了它真正緩解人類苦難的潛力時。

但Dan Mac指出，故事還未結束，接下來要發生的都是好消息：啟蒙的斜坡——生產力緩慢但平穩地上升，到達最終瓶頸之前還很長。

其實，Karpathy把整期播客又看了一遍。

他先自我檢討：有時「口比心快」，所以有些解釋我講砸了；有時也會緊張，擔心自己離題太遠，或者在次要細節里拐得太深。

下面👇，是Karpathy的補充觀點和自我辯白。

Karpathy的辯白

整體看，10年應當是對AGI很樂觀的時間表，只是與當下的炒作相比，它看起來沒那麼「提氣」。

10年很短

關於通用人工智慧（AGI）時間線，這是目前討論里最受關注的部分。

「智能的十年」（the decade of agents）對應的是他之前關於OpenAI Operator智能體的推文：

2025年，的確是智能體的元年，但未來10年都是「智能體時代」。

大體上，Karpathy認為他比舊金山「AGI時間線」悲觀大約 5–10 倍；但相對於近期興起的否定派和懷疑論者，又仍然偏樂觀。

這裡並不矛盾：

1）這幾年大語言模型（LLM）確實取得了巨大進展；

2）同時距離「在世界上任意崗位都更想雇它而不是僱人」的那個實體，還有大量工作要做：苦活累活、系統集成、連接物理世界的感知與執行、社會層面的協同，安全與防護（越獄、投毒等），以及進一步的研究。

整體看，10年本應是非常樂觀的AGI時間線；只是和當下的炒作氛圍一對比，才顯得「不夠樂觀」。

人工幽靈智能：AGI=Artifical Ghost Intelligence？

Karpathy懷疑是否存在「一條極其簡單的算法，讓它丟進世界就能從零學到一切」。

若有人真造出這種東西，他就錯了——那將是AI史上最驚人的突破。

在他心裡，動物並不是這種例子——動物由進化「預裝」了大量智能，後天學習總體上很有限。比如，斑馬一出生就能跑。

LLM是一種不同的形式的智能

從工程角度說，我們不可能重做一遍進化。

LLM是另一條「預裝智能」的路：不是靠進化，而是靠在網際網路上「預測下一個Token」把大量知識塞進網絡。

這會誕生一種不同於動物的智能形態，更像「幽靈/靈體」。

當然，我們完全可以、也應該逐步讓它們更「像動物」，很多前沿工作本質上就在做這件事。

強化學習不是全部答案

在博客中，Karpathy說，現在強化學習就像「通過吸管吸取監督」 ——

模型嘗試幾百種方法，只得到一個「對錯」信號，然後把這個信號廣播給成功路徑的每一步，包括那些純屬運氣的錯誤步驟。

你瞎猜猜中了答案，然後把猜的過程也當成「正確方法」強化，這能學好嗎？

他還提到一個更荒誕的例子：有個數學模型突然開始得滿分，看起來「解決了數學」。但仔細檢查發現，模型輸出的是「da da da da da」這樣的完全胡言亂語，卻騙過了LLM評判者。

這就是用LLM做評判的問題——它們會被對抗樣本攻擊。

之前，Karpathy多次評議過RL，這是他一貫的觀點：

RL會繼續帶來階段性成果，但不是全部答案。

首先，RL的signal/flop（信號/算力）比很差。它還很嘈雜；反過來，一些極有洞見的 Token 可能「被懲罰」（因為後面步驟失誤）。

Karpathy認為會出現替代性的學習範式。

他長期看好「智能體式交互」（agentic interaction），但看空「傳統RL」。

文本數據和監督微調的對話對，不會消失，但強化學習時代，環境才是主角。

與前兩者不同，環境讓 LLM 有機會真正進行互動——採取行動、觀察結果等等。這意味著你可以期待比統計專家模仿做得更好。它們既可用於模型訓練，也可用於評估。

但和以前一樣，現在的核心問題是需要大量多樣化且高質量的環境集，作為 LLM 的練習對象。

近期有不少論文在找對了方向，比如他稱之為「系統提示詞學習」（system prompt learning）的方法：

系統提示學習雖然設置類似強化學習，但學習算法不同（編輯操作 vs 梯度下降）。

通過這種範式，LLM 系統提示的大部分內容都可以自動生成，就像 LLM 在為自己撰寫解決問題的指南手冊。若成功，這將形成全新且強大的學習範式。當然還有許多細節待探索。

不過，arXiv上的點子與一家前沿實驗室真正能大規模、普適地落地之間，仍有不小的鴻溝。

他總體樂觀，覺得這條線很快會見到實質進展。

例如，ChatGPT 的記憶功能等，已經是新學習範式的「原始部署樣本」。

認知內核與「反事實」練習

長期依賴，Karpathy主張把LLM的「記憶」剝離或至少「加阻尼」，逼它們少靠死記硬背、多做抽象與遷移。

「認知核心」作為 LLM 個人計算的核心，默認常駐於每台電腦中。它的特性正逐漸明晰：

支持原生多模態的文本/視覺/音頻輸入與輸出。

採用套娃式架構，可在測試時靈活調節能力大小。

推理能力，帶調節功能（系統2）積極使用工具。

設備端微調LoRA插槽，用於實時訓練、個性化和定製化。

人類記不住那麼多細節，這反而像一種「正則化」——限制了記憶，泛化更好。

對應地，他也寫過模型尺寸的趨勢是「先大後小」：先堆到足夠大以承載能力，再在架構、訓練範式和數據上做減法與蒸餾，向「更小、更專注的認知內核」收斂。

再做個「反事實」練習：如果把33年的算法進步，帶回1989年的LeCun實驗室，能把當年的結果提升到什麼程度？

這能幫我們拆因：究竟是算法、數據還是算力在「卡脖子」。

在任何時代，正確地定位約束項，才談得上有效地投資與推進。

關於LLM智能體（Agents）

行業里很多工具假定「全自治團隊並行協作、自動寫萬行代碼、人類只當監工」。

Karpathy更偏向「協作式中間態」：

以人腦能裝得下的「塊」為單位疊代；

讓模型解釋自己在寫什麼、為什麼這麼寫；

主動引用 API/標準文檔自證正確；

不確定就問，少做拍腦袋的假設；

讓人類在循環中學習與增能。

否則我們會迎來「代碼沼澤」和安全面擴大。

與範圍編程相比， AI輔助編程重點在於嚴格約束這位熱情過度的「天才實習生——AI擁有軟體百科全書般的知識，卻總是滿嘴跑火車，勇氣過剩但對好代碼幾乎毫無品味。

關鍵在於保持緩慢、防禦性、謹慎、多疑的態度，始終抓住嵌入式學習機會而非委派任務。目前許多環節仍顯笨拙且手動操作，現有工具尚未明確支持或優化這些流程。

我們仍處於早期階段，AI編程助手的用戶體驗還有巨大改進空間

他希望工具的雄心與當下模型的真實能力匹配。

工作自動化與物理學教育

放眼各行各業，哪些崗位更易被自動化，取決於：輸入輸出是否標準化、錯誤代價是否可控、是否有客觀標註與可驗證性、以及是否存在高頻重複決策迴路。

以放射科為例，現實數據往往顯示「人機互補優先於完全替代」——把模型當作第二讀片者、質控器或分診器，反而提升了整體質量與吞吐。

他主張在基礎教育里更早、更系統地教物理，並不是為了培養物理學家，而是因為物理最像「給大腦刷底層系統」的學科：建模、量綱、守恆、近似與推理，把可計算的世界觀種進去。

「物理學家是智識的胚胎幹細胞」——這是Karpathy想認真展開的一篇長文的主題。