新聞 > 科教 > 正文

頂尖AI全軍覆沒!2025年AI看不懂時鐘

90%人都會的讀鍾題,頂尖AI全軍覆沒!

AI基準創建者、連續創業者Alek Safar推出了視覺基準測試ClockBench,專注於測試AI的「看懂」模擬時鐘的能力。

結果讓人吃驚:

人類平均準確率89.1%,而參與測試的11個主流大模型最好的成績僅13.3%。

就難度而言,這與「AGI終極測試」ARC-AGI-2相當,比「人類終極考試」更難。

ClockBench共包含180個時鐘、720道問題,展示了當前前沿大語言模型(LLM)的局限性。

雖然這些模型在多項基準上展現出驚人的推理、數學與視覺理解能力,但這些能力尚未有效遷移到「讀表」。可能原因:

訓練數據未覆蓋足夠可記憶的時鐘特徵與時間組合,模型不得不通過推理去建立指針、刻度與讀數之間的映射。

時鐘的視覺結構難以完整映射到文本空間,導致基於文本的推理受限。

也有好消息:表現最好的模型已展現出一定的視覺推理(雖有限)。其讀時準確率與中位誤差均顯著優於隨機水平。

接下來需要更多研究,以判定這些能力能否通過擴大現有範式(數據、模型規模、計算/推理預算)來獲得,還是必須採用全新的方法。

ClockBench如何拷打AI?

在過去的幾年裡,大語言模型(LLM)在多個領域都取得了顯著進展,前沿模型很快在許多流行基準上達到了「飽和」。

甚至是那些專門設計來同時考察「專業知識與強推理能力」的最新基準,也出現了快速突破。

一個典型例子是Humanity’s Last Exam):

在該基準上,OpenAI GPT-4o的得分僅2.7%,而xAI Grok4卻提升到25.4%;

結合工具使用等優化手段後,結果甚至能進入40–50%區間。

然而,我們仍然發現一些對人類而言輕而易舉的任務,AI表現不佳。

因此,出現了SimpleBench以及ARC-AGI這類基準,它們被專門設計為:對普通人來說很簡單,但對LLM卻很難。

ClockBench正是受這種「人類容易,AI困難」的思路啟發而設計。

研究團隊基於一個關鍵觀察:對推理型和非推理型模型來說,讀懂模擬時鐘同樣很難。

因此,ClockBench構建了一個需要高度視覺精度和推理能力的穩健數據集。

ClockBench究竟包含什麼?

36個全新設計的定製錶盤,每個錶盤生成5個樣本時鐘總計180個時鐘,每個時鐘設置4個問題,共720道測試題測試了來自6家實驗室的11個具備視覺理解能力的模型,並招募5名人類參與者對比。

問題分為4大類:

1.判斷時間是否有效

有一個時鐘️,大模型需要判斷這個時鐘顯示的時間是不是有效的。

如果時間是合法的,大模型需要把它分解成幾個部分,並以JSON格式輸出:

小時(Hours)、分鐘(Minutes)、秒(Seconds)、日期(Date)、月份(Month)、星期幾(Day of the week)

只要錶盤包含上述信息,就要求LLM一併輸出。

2.時間的加減

該任務要求LLM對給定時間進行加減,得到新時間。

3.旋轉時鐘指針

這個任務是關於操作時鐘的指針。該任務要求模型選擇時/分/秒針,並按指定角度順時針或逆時針旋轉。

4.時區轉換

這個任務是關於不同地方的時間。比如,給定紐約的夏令時,模型需推算不同地點的當地時間。

結果出乎意料

結果有哪些出乎意料的發現?

模型與人類不僅正確率差距巨大,錯誤模式也截然不同:

人類誤差中位數僅3分鐘,最佳模型卻高達1小時較弱模型的誤差約3小時,結合12小時制錶盤循環特性,相當於隨機噪音

另一個有趣發現是,某些鐘錶特徵的讀取難度存在顯著差異:

在讀取非常見的複雜鐘錶及高精度要求場景時,模型表現最差羅馬數字與環形數字的朝向最難識別,其次是秒針、雜亂背景和鏡像時鐘

除了讀時,其他問題對模型而言反而更簡單:

表現最佳的模型能高精度回答時間加減、指針旋轉角度或時區轉換問題,部分場景準確率可達100%

在不同模型的表現對比中,總體趨勢是:規模更大的推理型模型普遍優於規模較小或非推理型模型。

不過,也出現了一些值得注意的現象:

谷歌的Gemini2.5系列模型在各自類別中往往領先於其他模型;Anthropic系列模型則普遍落後於同類模型;Grok4的表現遠低於預期,與其規模和通用能力並不相稱。

GPT-5排名第三,且推理預算對結果影響不大(中等與高預算得分高度接近)值得思考的是:何種因素制約了GPT-5在此類視覺推理任務的表現?

在原始數據集中,180個時鐘里有37個屬於無效(不可能存在)的時間。無論是人類還是模型,在識別「無效時間」時的成功率都更高:

人類差異不大:在無效時鐘上的準確率為96.2%,而在有效時鐘上為89.1%;模型差異明顯:在無效時鐘上的準確率平均高出349%,並且所有模型在這類任務中的表現都更好;Gemini2.5 Pro依舊是總體最佳模型,準確率達到40.5%;Grok4則是一個異常值:它在識別無效時鐘上的準確率最高,達到64.9%,但問題在於,它把整個數據集裡63.3%的時鐘都標記為無效,這意味著結果很可能是「隨機撞對」。在模型能夠正確讀時的鐘面上,存在明顯的重疊現象:

61.7%的時鐘沒有被任何模型正確讀出;38.3%的時鐘至少被1個模型讀對;22.8%的時鐘至少被2個模型讀對;13.9%的時鐘至少被3個模型讀對;8.9%的時鐘至少被4個或以上的模型讀對。整體來看,分布情況和有效性數據表明:模型的正確答案集中在某一小部分時鐘上,而不是均勻分布。

責任編輯: 李華  來源:新智元 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2025/0909/2274680.html