新聞 > 科教 > 正文

☕列印版 ◪圖片版 ◫PDF

AI真的能幹活嗎？矽谷用一場真實打工實驗，給出了尷尬的答案

【阿波羅新聞網 2025-11-07 訊】

GPT-5打工合格率僅1.7%，因質量奇差被退單。

萬聖節前夜，矽谷把「AI能替人類打工」的幻想拖進現實揍了一頓。

Scale AI讓GPT-5、Claude、Gemini等一批「學霸」模型去「打零工」。不是做選擇題，也不是寫論文，而是獨立登錄自由業平台接真實訂單。客戶付真錢，模型交真貨。

這場測試被命名為「遠程勞動指數」，是全球首個專門衡量AI「能否真正幹活」的基準。

實驗結果像一場職場鬧劇：每個模型有忙前忙後，表現最好的那個，240個工單也只完成了6個，賺到1720美元，還不到人類自由業者報酬均值的2%。

近一半的失敗原因是，質量太差、成品業餘。

在「分數上天、交付落地」的AI時代，這是一次令人尷尬的對照實驗。儘管大模型在標準測試中表現驚人，但將這種「智力」轉化為現實世界中的「經濟價值」的能力還非常初級。

它也提出了一個比「AI是否聰明」更現實的問題，當真正要為結果付錢時，人們到底願不願意雇用AI？目前來看，人機協作仍然是短期到中期的唯一路徑。

01

讓大模型去賺外快，僅2.5%成功率

AI到底能不能自己幫我賺外快？

Scale AI的前CEO Alexandr Wang最近帶頭搞了場「AI打工實錄」，給出這樣的答案：極少數、且限制重重。

為了搞清楚這件事，Scale AI搞了個叫「遠程勞動指數」（RLI）的新標準，直接把各大模型當成「打工人」扔進真實項目里接單。

評判標準很現實：客戶肯不肯付錢，平台認不認為這活兒幹得專業。

他們特意選了自由業項目來測試，因為這類任務獨立、完整、還帶真實報酬，最能看出AI到底有沒有「獨自上班」的能力。

測試範圍不包括需要持續溝通、團隊合作或線下動手的活兒，主要覆蓋寫作、3D建模、視頻動畫、建築設計、遊戲開發等23類常見線上工作。

RLI的設計核心就倆字：真實。

所有測試項目都來自全球最大自由業平台Upwork上的真實訂單，一共240個，加起來相當於人類6000小時的工作量，總報酬高達14.4萬美元。

每個任務都配備了完整的需求說明、相關素材和人類交付樣例。比如，做數據報告任務，要求AI根據《世界幸福報告》的Excel數據，做出帶世界地圖和分數拆分的互動式報告。

▲交付要求示例

整個流程高度仿真：從理解需求、下載文件、多輪修改到最終提交，任何一個環節掉鏈子都算任務失敗。

結果嘛，有點慘烈。所有參與測試的AI模型，對複雜項目的整體自動化率，都低於3%。

表現最好的Manus，成功率也只有2.5%，也就是240個任務里只完成了6個。換算成報酬，它只賺到了1720美元，而人類完成所有這些任務可以賺到14.4萬美元。

其他「學霸」模型更拉胯：Grok4和Claude Sonnet4.5稍遜於第一名，均為2.1%；GPT-5為1.7%；ChatGPT Agent為1.3%；而Gemini2.5 Pro墊底，只有0.8%。

▲AI的任務通過率統統不超過3%

目前來看，指望AI完全自主幹活，效率實在有點低。研究團隊發現，AI的失敗不是隨機的，主要集中在這四類情況，且一個任務能踩好幾個坑：

①45.6%的任務「質量過低」，成品顯業餘，達不到專業標準；

②35.7%的任務「不完整或格式錯誤」，如視頻被截斷、文件缺失；

③17.6%的任務「技術與文件完整性問題」，如損壞、編碼錯誤；

④14.8%的任務「嚴重的視覺或邏輯不一致」，例如多鏡頭視角對不上、文件間彼此矛盾。

典型案例如：在一個珠寶設計項目中，AI的任務是「修改提供的戒指圖像，改變鑽石切工」。結果它完全無視客戶提供的原圖，自己放飛生成了兩張全新的AI圖，圖片質量業餘、沒按需求來、兩張新圖還對不上，一口氣觸發了三種失敗模式。

▲AI被「退貨」的典型案例

失敗原因指向更深的系統性問題。

「質量低下」說明AI根本不懂什麼叫「專業標準」；「不完整/格式錯誤」則暴露了它在處理多步驟、多工具工作流時有多麼脆弱。

不過AI也不是一無是處，它在某些特定類型任務上還是有點天賦的，主要集中在兩類：一是創意類任務，比如製作音效、設計Logo；二是基礎內容類任務，比如部分數據整理或寫作。

簡單來說，AI擅長「從零開始搞創作」，生成能力不錯。可一旦任務需要它串起多個工具、執行多步驟操作、保持文件間的一致性，或者在別人成果上做二次編輯，它基本就手忙腳亂，集體翻車。

雖然AI出活速度快，但交付質量實在難以達標。人類完成一個項目平均要28.9小時，而AI投入相近的「算力時間」後，大部分成果還是被判定為「不合格」。

這其實說明了一個趨勢：工作正在被「拆解」，而不是直接被「替代」。

在RLI中，任務被分為L1到L5五個難度等級。像資料整理、基礎文案這類L1-L2任務，AI通過率能達到25%-30%；而涉及跨工具協作、創意策劃的L4-L5任務，通過率卻低於5%。有意思的是，L1-L2任務正是很多人類初級崗位的日常。

按照「智能體摩爾定律」，有人預測到明年底，最強的AI智能體有望完成一半的遠程工作任務。

研究團隊也強調，AI的各項指標還在快速進步，RLI基準也會持續追蹤。他們計劃不斷更新測試任務庫，並加入多模態、長記憶、工具調用等新維度，目標很明確：把「模型能力」真正轉化為「經濟價值」來衡量。

02

舊基準失靈，「滿分」模型變「掉鏈子同事」

AI正在考試中證明「聰明」，卻在職場中暴露「不會幹活」。

近兩年，大模型在封閉題庫中的分數飆升，GDP-eval、SWE-bench等評測接連被刷到滿分。而另一邊，企業的初級崗位招聘卻在降溫。AI的「考試成績」與真實就業市場的表現，首次出現了明顯背離。

原因很簡單：現有基準測的是「答題能力」，而企業要的是「交付成果」。

微軟CEO Satya Nadella曾公開吐槽：「我們自詡達到AGI里程碑，不過是基準測試作弊。」

這正是典型的「高分低能」。模型選擇題全對，寫代碼卻漏了import；推理論證嚴密，做方案卻缺了關鍵信息。更嚴重的是，為了「刷榜」，不少模型訓練時已將測試集「醃」進參數裡，分數越高，離現實越遠。

AI領域迫切需要一種能衡量「真實工作能力」的新標準。

Scale AI推出的RLI正是為此而生。它不考一題一答的知識點，而是考「能否完成一整個工作流」——就像現實職場那樣，任務有上下文、要協作、要產出可交付成果。

那麼，RLI和傳統基準有何不同？

MMLU、MT-Bench和ARC Challenge都是當前評估大模型時「出場率」最高的主流基準之一，幾乎所有新模型發布都會貼出這三項分數。不過，它們各自存在明顯短板：

MMLU覆蓋57學科，更像閉卷知識競賽；

MT-Bench用兩輪對話給分，只能反映「聊天體感」，無法衡量跨工具、跨步驟的複雜協作；

ARC Challenge聚焦抽象常識推理，與現實場景脫節。

相比之下，RLI用真實付費訂單作為測試題目。模型不僅要理解任務、跨工具操作，還要交出客戶願意付錢的成果。這樣的評測幾乎無法「刷分」，它考驗的是全流程適應力。

現實中，甲方突然要求改語氣、換配圖風格；客戶上傳的參考資料缺頁、壓縮包損壞；或任務中途新增「請在Notion里同步進度並生成演示稿」。這些人類面對的模糊又多變的現實，是模型能力測試中不曾出現過的。

正如AI安全研究員Dan Hendrycks所說：「沒有什麼比現實更複雜。AI的進步，必須以真實經濟價值為衡量標準。」

那AI到底能不能獨立上崗？

RLI實驗結果顯然說明「AI絕對自動化率幾乎為零」，AI即將全面替代人類工作」的擔憂暫時缺乏數據支撐。

短期內，市場還不會被「AI勞動力」淹沒，但任務顆粒度變細、價格分層已在所難免。哈佛分析了500萬家美國企業的招聘數據後得出，AI引入後，初級崗位招聘量平均下降7.7%，尤其集中在批發零售、行政支持等流程標準化行業。

未來的初級崗位JD可能會寫成這樣：「能使用AI完成30%的日常雜務，並具備確保交付的能力。」

AI的崛起正在重塑工作結構。純執行型技能正在加速貶值，定義問題、管理流程、整合資源的能力，反而成了新的核心競爭力。

AI在考試中證明了「聰明」，而真正能在現實中「幹活」的，依然是那些懂得如何讓AI變成團隊一部分的人。

責任編輯：李華　來源：烏鴉智能說轉載請註明作者、出處並保持完整。

本文網址：https://tw.aboluowang.com/2025/1107/2302177.html

AI

相關新聞