新聞 > 科教 > 正文

AI真的能幹活嗎?矽谷用一場真實打工實驗,給出了尷尬的答案

GPT-5打工合格率僅1.7%,因質量奇差被退單。

萬聖節前夜,矽谷把「AI能替人類打工」的幻想拖進現實揍了一頓。

Scale AI讓GPT-5、Claude、Gemini等一批「學霸」模型去「打零工」。不是做選擇題,也不是寫論文,而是獨立登錄自由業平台接真實訂單。客戶付真錢,模型交真貨。

這場測試被命名為「遠程勞動指數」,是全球首個專門衡量AI「能否真正幹活」的基準。

實驗結果像一場職場鬧劇:每個模型有忙前忙後,表現最好的那個,240個工單也只完成了6個,賺到1720美元,還不到人類自由業者報酬均值的2%。

近一半的失敗原因是,質量太差、成品業餘。

在「分數上天、交付落地」的AI時代,這是一次令人尷尬的對照實驗。儘管大模型在標準測試中表現驚人,但將這種「智力」轉化為現實世界中的「經濟價值」的能力還非常初級。

它也提出了一個比「AI是否聰明」更現實的問題,當真正要為結果付錢時,人們到底願不願意雇用AI?目前來看,人機協作仍然是短期到中期的唯一路徑。

01

讓大模型去賺外快,僅2.5%成功率

AI到底能不能自己幫我賺外快?

Scale AI的前CEO Alexandr Wang最近帶頭搞了場「AI打工實錄」,給出這樣的答案:極少數、且限制重重。

為了搞清楚這件事,Scale AI搞了個叫「遠程勞動指數」(RLI)的新標準,直接把各大模型當成「打工人」扔進真實項目里接單。

評判標準很現實:客戶肯不肯付錢,平台認不認為這活兒幹得專業。

他們特意選了自由業項目來測試,因為這類任務獨立、完整、還帶真實報酬,最能看出AI到底有沒有「獨自上班」的能力。

測試範圍不包括需要持續溝通、團隊合作或線下動手的活兒,主要覆蓋寫作、3D建模、視頻動畫、建築設計、遊戲開發等23類常見線上工作。

RLI的設計核心就倆字:真實。

所有測試項目都來自全球最大自由業平台Upwork上的真實訂單,一共240個,加起來相當於人類6000小時的工作量,總報酬高達14.4萬美元。

每個任務都配備了完整的需求說明、相關素材和人類交付樣例。比如,做數據報告任務,要求AI根據《世界幸福報告》的Excel數據,做出帶世界地圖和分數拆分的互動式報告。

▲交付要求示例

整個流程高度仿真:從理解需求、下載文件、多輪修改到最終提交,任何一個環節掉鏈子都算任務失敗。

結果嘛,有點慘烈。所有參與測試的AI模型,對複雜項目的整體自動化率,都低於3%。

表現最好的Manus,成功率也只有2.5%,也就是240個任務里只完成了6個。換算成報酬,它只賺到了1720美元,而人類完成所有這些任務可以賺到14.4萬美元。

其他「學霸」模型更拉胯:Grok4和Claude Sonnet4.5稍遜於第一名,均為2.1%;GPT-5為1.7%;ChatGPT Agent為1.3%;而Gemini2.5 Pro墊底,只有0.8%。

▲AI的任務通過率統統不超過3%

目前來看,指望AI完全自主幹活,效率實在有點低。研究團隊發現,AI的失敗不是隨機的,主要集中在這四類情況,且一個任務能踩好幾個坑:

①45.6%的任務「質量過低」,成品顯業餘,達不到專業標準;

②35.7%的任務「不完整或格式錯誤」,如視頻被截斷、文件缺失;

③17.6%的任務「技術與文件完整性問題」,如損壞、編碼錯誤;

④14.8%的任務「嚴重的視覺或邏輯不一致」,例如多鏡頭視角對不上、文件間彼此矛盾。

典型案例如:在一個珠寶設計項目中,AI的任務是「修改提供的戒指圖像,改變鑽石切工」。結果它完全無視客戶提供的原圖,自己放飛生成了兩張全新的AI圖,圖片質量業餘、沒按需求來、兩張新圖還對不上,一口氣觸發了三種失敗模式。

▲AI被「退貨」的典型案例

失敗原因指向更深的系統性問題。

「質量低下」說明AI根本不懂什麼叫「專業標準」;「不完整/格式錯誤」則暴露了它在處理多步驟、多工具工作流時有多麼脆弱。

不過AI也不是一無是處,它在某些特定類型任務上還是有點天賦的,主要集中在兩類:一是創意類任務,比如製作音效、設計Logo;二是基礎內容類任務,比如部分數據整理或寫作。

簡單來說,AI擅長「從零開始搞創作」,生成能力不錯。可一旦任務需要它串起多個工具、執行多步驟操作、保持文件間的一致性,或者在別人成果上做二次編輯,它基本就手忙腳亂,集體翻車。

雖然AI出活速度快,但交付質量實在難以達標。人類完成一個項目平均要28.9小時,而AI投入相近的「算力時間」後,大部分成果還是被判定為「不合格」。

這其實說明了一個趨勢:工作正在被「拆解」,而不是直接被「替代」。

在RLI中,任務被分為L1到L5五個難度等級。像資料整理、基礎文案這類L1-L2任務,AI通過率能達到25%-30%;而涉及跨工具協作、創意策劃的L4-L5任務,通過率卻低於5%。有意思的是,L1-L2任務正是很多人類初級崗位的日常。

按照「智能體摩爾定律」,有人預測到明年底,最強的AI智能體有望完成一半的遠程工作任務。

研究團隊也強調,AI的各項指標還在快速進步,RLI基準也會持續追蹤。他們計劃不斷更新測試任務庫,並加入多模態、長記憶、工具調用等新維度,目標很明確:把「模型能力」真正轉化為「經濟價值」來衡量。

02

舊基準失靈,「滿分」模型變「掉鏈子同事」

AI正在考試中證明「聰明」,卻在職場中暴露「不會幹活」。

近兩年,大模型在封閉題庫中的分數飆升,GDP-eval、SWE-bench等評測接連被刷到滿分。而另一邊,企業的初級崗位招聘卻在降溫。AI的「考試成績」與真實就業市場的表現,首次出現了明顯背離。

原因很簡單:現有基準測的是「答題能力」,而企業要的是「交付成果」。

微軟CEO Satya Nadella曾公開吐槽:「我們自詡達到AGI里程碑,不過是基準測試作弊。」

這正是典型的「高分低能」。模型選擇題全對,寫代碼卻漏了import;推理論證嚴密,做方案卻缺了關鍵信息。更嚴重的是,為了「刷榜」,不少模型訓練時已將測試集「醃」進參數裡,分數越高,離現實越遠。

AI領域迫切需要一種能衡量「真實工作能力」的新標準。

Scale AI推出的RLI正是為此而生。它不考一題一答的知識點,而是考「能否完成一整個工作流」——就像現實職場那樣,任務有上下文、要協作、要產出可交付成果。

那麼,RLI和傳統基準有何不同?

MMLU、MT-Bench和ARC Challenge都是當前評估大模型時「出場率」最高的主流基準之一,幾乎所有新模型發布都會貼出這三項分數。不過,它們各自存在明顯短板:

MMLU覆蓋57學科,更像閉卷知識競賽;

MT-Bench用兩輪對話給分,只能反映「聊天體感」,無法衡量跨工具、跨步驟的複雜協作;

ARC Challenge聚焦抽象常識推理,與現實場景脫節。

相比之下,RLI用真實付費訂單作為測試題目。模型不僅要理解任務、跨工具操作,還要交出客戶願意付錢的成果。這樣的評測幾乎無法「刷分」,它考驗的是全流程適應力。

現實中,甲方突然要求改語氣、換配圖風格;客戶上傳的參考資料缺頁、壓縮包損壞;或任務中途新增「請在Notion里同步進度並生成演示稿」。這些人類面對的模糊又多變的現實,是模型能力測試中不曾出現過的。

正如AI安全研究員Dan Hendrycks所說:「沒有什麼比現實更複雜。AI的進步,必須以真實經濟價值為衡量標準。」

那AI到底能不能獨立上崗?

RLI實驗結果顯然說明「AI絕對自動化率幾乎為零」,AI即將全面替代人類工作」的擔憂暫時缺乏數據支撐。

短期內,市場還不會被「AI勞動力」淹沒,但任務顆粒度變細、價格分層已在所難免。哈佛分析了500萬家美國企業的招聘數據後得出,AI引入後,初級崗位招聘量平均下降7.7%,尤其集中在批發零售、行政支持等流程標準化行業。

未來的初級崗位JD可能會寫成這樣:「能使用AI完成30%的日常雜務,並具備確保交付的能力。」

AI的崛起正在重塑工作結構。純執行型技能正在加速貶值,定義問題、管理流程、整合資源的能力,反而成了新的核心競爭力。

AI在考試中證明了「聰明」,而真正能在現實中「幹活」的,依然是那些懂得如何讓AI變成團隊一部分的人。

責任編輯: 李華  來源:烏鴉智能說 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2025/1107/2302177.html