AGI並非明天到,但也不是海市蜃樓。Karpathy直言:通往 AGI 的路已出現,卻布滿硬骨頭——強化學習信號稀薄、模型崩塌風險、環境與評估匱乏、系統集成與安全難題等。他給出一個「樂觀而不煽情」的時間表:10年。
最近幾天,OpenAI的創始元老、特斯拉前深度學習負責人Karpathy,公開表示:AGI仍有十年之遙。
Karpathy批評業界高估了當前的AI的智能水平,但同時他認為通向AGI之路已經出現,但這條路並非坦途。
Karpathy解釋了實現AGI的眾多難題:
為什麼強化學習很糟糕(不過其他方法更糟)、
為什麼模型崩塌會阻止大語言模型像人類那樣學習、
為什麼AGI只會融入過去約2.5個世紀以來每年約2%的GDP增長趨勢、
為什麼自動駕駛花了這麼久才被攻克。
這些問題很難,所以大概實現AGI還需要10年。這被普遍解讀為看衰AI,給當前AGI狂熱澆下一盆冷水。
馬斯克點名Karpathy迎戰Grok 5
馬斯克認為,Karpathy的確有些觀點不錯。
但隨後,馬斯克話鋒一轉,點名卡帕西和Grok 5來場編程大戰,類似於西洋棋大師卡斯帕羅夫與深藍的對決時刻。
不過,Karpathy拒絕了馬斯克的挑戰,並表示我寧願與Grok 5合作,也不願與它競爭
考慮到馬斯克認為目前Grok 5實現AGI的概率只有10%,但要Grok 5在編程上挑戰Karpathy。
或許,AI初創Yuchen Jin的推文很好解釋馬斯克為何如此做:
馬斯克在用他的「現實扭曲立場」,在推動xAI團隊實現「不可能的目標」。
智能體工程師Dan Mac表示,Karpathy在斷言,現在正處於LLM炒作的「幻滅低谷期」。
這更像一種現實主義:與其擺擂台,不如把工具打磨好。
看起來,Karpathy有力支持了LLM懷疑論者——那些人可能正在慶祝「AI無用論」的勝利。
這令人沮喪。尤其是當你關心AI,並看到了它真正緩解人類苦難的潛力時。
但Dan Mac指出,故事還未結束,接下來要發生的都是好消息:啟蒙的斜坡——生產力緩慢但平穩地上升,到達最終瓶頸之前還很長。
其實,Karpathy把整期播客又看了一遍。
他先自我檢討:有時「口比心快」,所以有些解釋我講砸了;有時也會緊張,擔心自己離題太遠,或者在次要細節里拐得太深。
下面👇,是Karpathy的補充觀點和自我辯白。
Karpathy的辯白
整體看,10年應當是對AGI很樂觀的時間表,只是與當下的炒作相比,它看起來沒那麼「提氣」。
10年很短
關於通用人工智慧(AGI)時間線,這是目前討論里最受關注的部分。
「智能的十年」(the decade of agents)對應的是他之前關於OpenAI Operator智能體的推文:
2025年,的確是智能體的元年,但未來10年都是「智能體時代」。
大體上,Karpathy認為他比舊金山「AGI時間線」悲觀大約 5–10 倍;但相對於近期興起的否定派和懷疑論者,又仍然偏樂觀。
這裡並不矛盾:
1)這幾年大語言模型(LLM)確實取得了巨大進展;
2)同時距離「在世界上任意崗位都更想雇它而不是僱人」的那個實體,還有大量工作要做:苦活累活、系統集成、連接物理世界的感知與執行、社會層面的協同,安全與防護(越獄、投毒等),以及進一步的研究。
整體看,10年本應是非常樂觀的AGI時間線;只是和當下的炒作氛圍一對比,才顯得「不夠樂觀」。
人工幽靈智能:AGI=Artifical Ghost Intelligence?
Karpathy懷疑是否存在「一條極其簡單的算法,讓它丟進世界就能從零學到一切」。
若有人真造出這種東西,他就錯了——那將是AI史上最驚人的突破。
在他心裡,動物並不是這種例子——動物由進化「預裝」了大量智能,後天學習總體上很有限。比如,斑馬一出生就能跑。
LLM是一種不同的形式的智能
從工程角度說,我們不可能重做一遍進化。
LLM是另一條「預裝智能」的路:不是靠進化,而是靠在網際網路上「預測下一個Token」把大量知識塞進網絡。
這會誕生一種不同於動物的智能形態,更像「幽靈/靈體」。
當然,我們完全可以、也應該逐步讓它們更「像動物」,很多前沿工作本質上就在做這件事。
強化學習不是全部答案
在博客中,Karpathy說,現在強化學習就像「通過吸管吸取監督」 ——
模型嘗試幾百種方法,只得到一個「對錯」信號,然後把這個信號廣播給成功路徑的每一步,包括那些純屬運氣的錯誤步驟。
你瞎猜猜中了答案,然後把猜的過程也當成「正確方法」強化,這能學好嗎?
他還提到一個更荒誕的例子:有個數學模型突然開始得滿分,看起來「解決了數學」。但仔細檢查發現,模型輸出的是「da da da da da」這樣的完全胡言亂語,卻騙過了LLM評判者。
這就是用LLM做評判的問題——它們會被對抗樣本攻擊。
之前,Karpathy多次評議過RL,這是他一貫的觀點:
RL會繼續帶來階段性成果,但不是全部答案。
首先,RL的signal/flop(信號/算力)比很差。它還很嘈雜;反過來,一些極有洞見的 Token 可能「被懲罰」(因為後面步驟失誤)。
Karpathy認為會出現替代性的學習範式。
他長期看好「智能體式交互」(agentic interaction),但看空「傳統RL」。
文本數據和監督微調的對話對,不會消失,但強化學習時代,環境才是主角。
與前兩者不同,環境讓 LLM 有機會真正進行互動——採取行動、觀察結果等等。這意味著你可以期待比統計專家模仿做得更好。它們既可用於模型訓練,也可用於評估。
但和以前一樣,現在的核心問題是需要大量多樣化且高質量的環境集,作為 LLM 的練習對象。
近期有不少論文在找對了方向,比如他稱之為「系統提示詞學習」(system prompt learning)的方法:
系統提示學習雖然設置類似強化學習,但學習算法不同(編輯操作 vs 梯度下降)。
通過這種範式,LLM 系統提示的大部分內容都可以自動生成,就像 LLM 在為自己撰寫解決問題的指南手冊。若成功,這將形成全新且強大的學習範式。當然還有許多細節待探索。
不過,arXiv上的點子與一家前沿實驗室真正能大規模、普適地落地之間,仍有不小的鴻溝。
他總體樂觀,覺得這條線很快會見到實質進展。
例如,ChatGPT 的記憶功能等,已經是新學習範式的「原始部署樣本」。
認知內核與「反事實」練習
長期依賴,Karpathy主張把LLM的「記憶」剝離或至少「加阻尼」,逼它們少靠死記硬背、多做抽象與遷移。
「認知核心」作為 LLM 個人計算的核心,默認常駐於每台電腦中。它的特性正逐漸明晰:
支持原生多模態的文本/視覺/音頻輸入與輸出。
採用套娃式架構,可在測試時靈活調節能力大小。
推理能力,帶調節功能(系統2) 積極使用工具。
設備端微調LoRA插槽,用於實時訓練、個性化和定製化。
人類記不住那麼多細節,這反而像一種「正則化」——限制了記憶,泛化更好。
對應地,他也寫過模型尺寸的趨勢是「先大後小」:先堆到足夠大以承載能力,再在架構、訓練範式和數據上做減法與蒸餾,向「更小、更專注的認知內核」收斂。
再做個「反事實」練習:如果把33年的算法進步,帶回1989年的LeCun實驗室,能把當年的結果提升到什麼程度?
這能幫我們拆因:究竟是算法、數據還是算力在「卡脖子」。
在任何時代,正確地定位約束項,才談得上有效地投資與推進。
關於LLM智能體(Agents)
行業里很多工具假定「全自治團隊並行協作、自動寫萬行代碼、人類只當監工」。
Karpathy更偏向「協作式中間態」:
以人腦能裝得下的「塊」為單位疊代;
讓模型解釋自己在寫什麼、為什麼這麼寫;
主動引用 API/標準文檔自證正確;
不確定就問,少做拍腦袋的假設;
讓人類在循環中學習與增能。
否則我們會迎來「代碼沼澤」和安全面擴大。
與範圍編程相比, AI輔助編程重點在於嚴格約束這位熱情過度的「天才實習生——AI擁有軟體百科全書般的知識,卻總是滿嘴跑火車,勇氣過剩但對好代碼幾乎毫無品味。
關鍵在於保持緩慢、防禦性、謹慎、多疑的態度,始終抓住嵌入式學習機會而非委派任務。目前許多環節仍顯笨拙且手動操作,現有工具尚未明確支持或優化這些流程。
我們仍處於早期階段,AI編程助手的用戶體驗還有巨大改進空間
他希望工具的雄心與當下模型的真實能力匹配。
工作自動化與物理學教育
放眼各行各業,哪些崗位更易被自動化,取決於:輸入輸出是否標準化、錯誤代價是否可控、是否有客觀標註與可驗證性、以及是否存在高頻重複決策迴路。
以放射科為例,現實數據往往顯示「人機互補優先於完全替代」——把模型當作第二讀片者、質控器或分診器,反而提升了整體質量與吞吐。
他主張在基礎教育里更早、更系統地教物理,並不是為了培養物理學家,而是因為物理最像「給大腦刷底層系統」的學科:建模、量綱、守恆、近似與推理,把可計算的世界觀種進去。
「物理學家是智識的胚胎幹細胞」——這是Karpathy想認真展開的一篇長文的主題。