新聞 > 科教 > 正文

頂級數學家懵然不知 OpenAI 最強模型被曝造假?

近日,OpenAI再次陷入了輿論風波。

事件源於 LessWrong論壇上的一則爆料。一位名為「Meemi」的 Epoch AI承包商透露,OpenAI不僅為 FrontierMath基準測試提供資金支持,還獲得了測試題庫的特權訪問權。(下圖)

而這或許也是 o3的成績在短時間內獲得極大提高的重要原因。但這個信息直到去年12月20日 o3發布時,才由 Epoch AI對外公布。

消息一出,瞬間在 AI圈引起軒然大波,因為這很難不讓網友懷疑 OpenAI是既當裁判,也當選手。

吃瓜之前,需要給不熟悉的朋友先捋事件的背景信息。

去年12月,OpenAI正式發布了新一代號稱突破 AI極限的 o3模型。

在其中一項名為 FrontierMath的 AI數學基準測試(成績單)中,OpenAI以25.2%的準確率遙遙領先,遠超 GPT-4和 Gemini等模型不足2%的成績。

FrontierMath是一個分量極重的高級數學推理能力評估基準。它由 Epoch AI聯手60多位頂級數學家共同打造,參與者包括多位菲爾茲獎得主和國際數學奧林匹克競賽的資深命題人。

該基準包含數百個原創且極具挑戰性的數學問題,覆蓋現代數學的多個主要分支,如數論、實分析、代數幾何、範疇論等。

2006年菲爾茲獎得主、數學天才陶哲軒曾評價 FrontierMath的問題「極其具有挑戰性」,並認為這些問題只能由領域專家來解決。他指出,即使是人類專家,解決這些問題也需要數小時甚至數天的努力。

本表明 o3在高級數學推理方面有巨大進步的成績單,卻在承包商的爆料後迎來了風評反轉。面對爭議,Epoch AI副主任兼聯合創始人之一 Tamay Besiroglu很快在 X平台承認了此事。

我們犯了一個錯誤,沒有更早披露 OpenAI在 FrontierMath中的參與。我們的合同在 o3發布前禁止我們這麼做。事後看來,我們確實應該更努力地爭取更早的透明性。我們承認這一點,並承諾未來做得更好。

事態進一步發酵,史丹福大學數學博士生 Carina Hong聲稱,在 Epoch AI的安排下,OpenAI擁有對 FrontierMath的特權訪問權。

「對 FrontierMath基準測試做出重大貢獻的六位數學家向我證實,他們並不知道 OpenAI會獨占該基準測試的訪問權限,而其他人無法獲得,多數人表示,如果他們事先知情,可能不會選擇參與。」

面對質疑聲浪,Tamay Besiroglu也通過博客表達歉意,承諾將在未來採用更高的透明度標準。

博客強調 OpenAI的資金支持僅限於 FrontierMath的開發,並未干預測試內容,同時聲明所有數據和問題均來自獨立貢獻者並經過獨立專家審核。

關於訓練使用:我們承認 OpenAI確實可以訪問大部分 FrontierMath問題和解決方案,但不包括 OpenAI無法訪問的保留集,這使我們能夠獨立驗證模型功能。此外,我們有一個口頭協議,這些材料不會用於模型訓練。

相關 OpenAI員工的公開溝通將 FrontierMath描述為「嚴格保留」的評估集。雖然這種公開立場與我們的理解一致,但我還要進一步強調,實驗室從擁有真正未受污染的數據集中獲益匪淺。

OpenAI也完全支持我們維護一個單獨的、未公開保留的數據集的決定,這是一種額外的保護措施,可以防止過度擬合併確保準確的進度測量。自最初設計之時起,FrontierMath就被定位並展示為一種評估工具,我們相信這些安排反映了這一目的。

[編輯:澄清了 OpenAI的數據訪問–他們無權訪問作為獨立驗證額外保護措施的單獨保留集。]

Epoch AI的首席數學家 Elliot Glazer承認在項目過程中未主動披露行業資助方面的信息,並向那些如果事先知情可能不會參與的數學家道歉。

關於 o3成績,他表示相信 OpenAI報告的分數準確性,但強調 Epoch AI需要通過正在開發的獨立保留測試集來驗證,並承諾保留集評估分數將公開。

當被質疑保留集狀態時,Glazer澄清這個測試集仍在開發中,而不是已經完成。

但這些解釋並未能平息事件的爭議,更多批評風浪湧向 Epoch AI以及身處輿論漩渦的 OpenAI。

計算機科學家 Subbarao Kambhampati表示,他此前就對 OpenAI聲稱未預先接觸奧林匹克數學和 FrontierMath數據的說法持懷疑態度。在他看來,OpenAI禁止相關方披露協議內容的做法本身就極具可疑性。

知名 AI專家 Gary Marcus對此事件提出了猛烈的批評。

他將 OpenAI的 o3演示描述為一場「絕望的、操縱的、誤導性的、科學上粗製濫造的展示」,認為這更像是一次過度炒作而非真實突破。

一個生動的打比方是,如果有人提前獲得了試題和答案,而其他人只能靠實力應考,這樣的比較顯然缺乏公平性。OpenAI不僅獲得了問題和解決方案的訪問權,而其他競爭對手如 xai、DeepMind以及學術團隊卻無法獲得相同資源。

更重要的是,Gary Marcus認為 OpenAI對這一關鍵背景事實隻字未提。

並且在展示過程中,OpenAI選擇性地隱藏了關鍵信息,既未公布在具體問題上的成功與失敗案例,也沒有提供相應的推理過程記錄,更未說明哪些問題出現在訓練集中。同時,他們也沒有允許 Epoch對保留測試集進行驗證。

而回歸到這場愈演愈烈的風波,很大程度上源於網友們對 OpenAI無休止炒作的厭倦。疑似「刷榜」的行為,也再次觸及了許多網友敏感的神經。

就在輿論持續發酵之際,OpenAI又宣布其「Operator」項目取得突破,CEO Altman預計將於1月30日向美國政府進行閉門簡報。

據悉,「Operator」是 OpenAI開發的一種具有博士級別能力的自主 AI智能體,能夠在瀏覽器中獨立執行任務,比如編寫代碼、預訂旅行、管理日程等。

當然,在這個節骨眼上,或許最好的危機公關策略就是立即發布 o3。而這也是最好的過年禮物。

截至發稿前,OpenAI尚未進一步作出聲明。

責任編輯: 王和  來源:愛范兒 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2025/0122/2163834.html