每當丈夫上班、兒子返校,家住武漢的全職媽媽吳海燕便會坐到電腦前開始一天的工作,在一個被稱為「freespace魚眼語義分割」的項目中進行標註工作。
之所以叫魚眼語義分割,是因為吳海燕標註的圖片全都來源於車載魚眼攝影頭所錄視頻。這些圖片的場景大多在停車場中,吳海燕需要做的是利用點陣工具,將立柱、柵欄、機動車、行人等物體的接地點標出並連結,形成一塊藍色的封閉多邊形區域,這塊區域就是freespace(可行駛區域)。
當吳海燕將一段視頻的300幀圖像全部標註好,這些數據集便可用於訓練智能汽車的自動駕駛算法,幫助AI(人工智慧)理解在停車場哪些區域可以行駛、哪些區域可以泊車以及哪些區域不能觸碰。
「現在看到新聞里很火的Chat-GPT都有種親切感,好像是自己手把手教出來的。」2月15日,吳海燕告訴經濟觀察報。
這樣一份可以被形容為AI「老師」的工作,在《國家職業分類大典(2022年版)》中被稱為數據標註員,即通過對圖片、語音、文本等數據進行標註和加工,為AI算法學習及優化提供樣本。
像吳海燕這樣的兼職數據標註員,僅在其工作的平台就有近兩萬人,他們的職業背景和社會身份各異,既有吳海燕這樣的家庭主婦,也有大城市的基層白領,以及部分殘障人士。
這些數據標註員正處在火熱AI賽道的最底層,用日復一日的枯燥勞動,為如今大放異彩的各類AI應用提供重要的數據養料,他們所在的行業也被統稱為「人工智慧基礎數據服務」。
根據IDC發布的數據,近5年中國AI基礎數據服務市場規模年複合增長率達到47%,預期2025年將突破120億元,占到中國人工智慧市場規模總額約10%。
「數據標註員」
2月15日,經濟觀察報記者在兼職貓平台報名了一份數據標註員的兼職,當晚,項目負責人趙強傑電話詢問了記者的基本情況,隨後將記者拉至一個名為「試標」的微信群里。
「新進群的同學先看群公告,再看聊天記錄里的視頻,看完有想做(數據標註)的,私聊找我試標,只差三個人了。」
這是一份時長36分鐘的標註培訓視頻,示範了如何在一幀車載魚眼攝影頭錄製的視頻中,通過將立柱、機動車、行人等障礙物的接地點連接到一塊,從而精準標註出一塊藍色區域。
「標註人員需以封閉多邊形的形式標出視頻每一幀畫面中障礙物接地點freespace的邊界。」與教學視頻配套的另一份培訓文檔上有對該項目的概述。
「freespace簡單說就是可行駛區域,常見於泊車場景的數據標註,通過將柵欄、牆面等障礙物阻隔的近端區域,未被機動車占用的可泊車位等邊界的像素坐標信息標註後,用於幫助AI定義可行駛區域,可以實現自動泊車、一鍵呼叫等功能。」上海一家智能硬體企業的算法工程師馮易向經濟觀察報解釋。
趙強傑所說的試標,便是兼職數據標註員的面試,通過標註「實戰」來測試應聘者的工作能力,在大致看完了標註項目的教學視頻後,記者私聊了趙強傑,表達了想要試標的意願,隨後得到一個測試帳號。
記者登錄一個名為數加加眾包的數據標註平台,並在其中打開了趙強傑指定的測試項目。在觀看教學視頻之初,這份標註工作的難度並不高,只不過是按照既定規則將畫面中可行駛區域標註出來。
但在實際操作過程中,記者還是遇到了不少難題,例如畫面中遠處的立柱被遮擋,無法準確標出邊界與接地點,抑或是畫面遠處過於模糊,無法區分標註物體所屬類型。
用了將近10分鐘,記者勉強完成了第一幀圖像的標註,過程中,趙強傑多次催促了記者。
「你確定你看過視頻了嗎?看過視頻是不可能還標成這樣的,要像你這樣標,AI學完車就直接撞柱子上了。」在收到了試標註的圖像後,趙強傑向記者反饋。
他還告訴記者,通常一段魚眼視頻會有20幀圖像需要標註,熟練的數據標註員一天需要標200-300幀畫面,像記者這樣的標註速度無法勝任兼職工作。

在記者進行試標的同時,一位在深圳上班的白領董程也加入了趙強傑的群。
他稍早前在社交平台上看到有關兼職數據標註員的介紹信息,隨後被「下班兼職、工資日結、日薪300、就像連連看」等關鍵詞吸引,在私聊發布信息的博主後,獲得了趙強傑的聯繫方式並進群。
同記者一樣,董程也在隨後的試標中被趙強傑淘汰,記者對比了董程標註的截圖與趙強傑提供的正確標註截圖,發現除了個別點位的標註不同外,大致區域範圍其實並沒有太大差異。
「自動駕駛類的數據標註需求是很嚴的,不精細的數據甲方是不會驗收的,你看起來可能就差一點點,但是人人都差一點點,累積起來給到AI訓練那邊可能就會是天大的錯誤,如果出現無效訓練,輕則浪費一些成本,重則要出人命的。」面對記者的疑問,趙強傑說。
深圳一家AI企業的產品經理何茂對記者表示,在算力、算法和數據構成AI應用的三大要素中,訓練的準備數據可以算得上是最重要環節,谷歌大腦創始人吳恩達就曾指出:「AI研究80%的工作應該放在數據準備上,確保數據質量是最重要的工作;業界如果更多地強調以數據為中心而不是以模型為中心,那麼機器學習的發展會更快。」
何茂告訴記者,當前主流的機器學習算法為有監督學習,即讓機器通過標籤化的數據進行學習訓練,「就像人類一樣,小時候有人告訴你什麼是汽車,什麼是飛機,教你學會了鑑別,這就叫有監督學習」。
而在有監督學習中,通過對大量原始語音、視頻、文本及圖片數據進行加工處理,從而使機器能夠識別和學習這些信息的數據標註工作,便成了機器學習順利進行的關鍵環節。「對經過標註的數據集進行模型訓練,可以讓AI在未來再次接收到對應數據時,能夠進行簡單分類並輸出正確判斷,例如freespace數據標註,便能夠讓AI在泊車場景下快速判斷可行駛區域與可停泊車位,所以數據標註就像是AI的啟蒙老師,教給不同場景下的AI最基礎的鑑別和分類功能。」何茂解釋。
馮易指出,對於有監督學習算法來說,訓練數據的需求空間還很大,所以基礎數據服務對模型算法發揮著關鍵支撐作用。
「訓練」ChatGPT
根據應用場景的不同,數據標註也分很多類型,像趙強傑、吳海燕最近在做的魚眼freespace標註就屬於語義分割的一種。
「根據不同物體、區域的外形進行描邊標註,將對應邊界像質數據對應到具體類別和屬性,使機器能夠快速識別,相當於告訴機器什麼樣的是車、什麼樣的是路、什麼樣的是樹等等,主要應用在自動駕駛、智慧安防等場景。」何茂告訴記者。
而近期大火的ChatGPT屬於NLP(自然語言處理)模型的一種,這類模型的訓練同樣需要標註員進行對應的數據標註,趙強傑在去年底就曾接到過自然語義類型的標註任務,「那是一個十萬條的新聞情感分類標註項目,要根據每條新聞的內容進行正面、中性、負面三種類型的標註」。
據了解,情感標註是指針對原始文本、語音等自然語言內容進行情緒傾向的判定,幫助NLP模型人類語境與情感。
趙強傑舉例,「比如,機器收到了一句『今天是周五』,這句話可能在傳達正面情緒,如果後面緊接著補一句『我還要加班』,就變成了負面情緒的表達,理解用戶情緒能夠幫助AI更好地組織回答」。
在趙強傑展示的項目說明文檔中,記者看到了其團隊去年所接新聞情感標註項目的具體要求,客戶希望標註團隊根據新聞內容,判斷其對經濟的影響好壞,從而進行三種類型的分類。
例如,在該文檔中,有一則新聞內容是在去年北京市某場新冠疫情防控工作新聞發布會上,通報了多名違反疫情防控相關規定,及涉嫌妨害傳染病防治罪的相關責任人,該則新聞的標註處有一個數字0,即此新聞表達的為負面情緒。
「情感標註的項目任務比較常見,除了在智能客服、智能家居領域,還可以用在輿情監測上,幫助企業快速鎖定負面輿情,進行公關處理。」趙強傑說。
相較於略顯簡單的情感標註,吳海燕去年還曾參與過更為複雜的詞性及句法標註,這類經過標註後的數據,便被用於訓練類似於ChatGPT這類自然語言處理模型。
吳海燕回憶,該項目的原始數據主要為採集自各類社交平台評論區的語句,標註員要將語句中的詞彙語法屬性以及句中的依存關係進行標註。
以「今天凌晨蘋果公司發布了i-Phone14」一句為例,該句中一共有「今天、凌晨、蘋果、公司、發布、了、i-Phone、14」八個需要標註的詞性以及依存句法,其中今天為時間詞,標註為t,該短語又屬於定中關係,需標註為ATT;凌晨同樣屬於時間詞,標註為t,但在句法上屬於狀中結構需標註為ADV。
「原始的文本數據直接給到機器當然是識別不了的,所以需要進行標註,給每一個詞語、句子進行定性,從而可以使用模型做分析和表達。」馮易向記者解釋。
他告訴記者,目前中文領域主流的詞性標註法,為北京大學計算語言所在2003年推出的語料庫加工規範,其中將中文詞性分為39類,包括「形容詞、時間詞、人名、地名、成語」等等,而中文作為典型的大字符集語言,僅僅標註詞性仍難以用於高效訓練模型,因此就需要進一步標註句法。
「常用的漢字可能都有七八千個,所有漢字加一塊有10萬個,還存在同音、同義、歧義等情況,這就需要將句法標註和詞性標註結合起來,依存句法標註簡單來說,就是分解一段句子,尋找其內部詞語之間的依存關係,從而實現對不同語句結構的高效概括,讓AI能夠通過分析句子結構提煉出相關信息,以便更準確、自然地給到用戶回復。」馮易表示。
何茂亦表示,諸如詞性及句法標註只不過邁出了NLP模型訓練的第一步,後續還要經過特徵工程(將詞句向量化,便於計算機識別)、選擇模型、訓練模型、評估模型及測試上線,如果沒有高質量的優秀訓練數據集作為基礎,後面的所有工作都無從談起。
「ChatGPT的誕生本質上還是屬於『大力出奇蹟』的事情,依靠大數據、高算力、大模型硬堆出來的人工智慧,背後包含了數不清的標註員、訓練師的勞動成果。」何茂說。
如今,回憶起去年曾經參與的文本標註項目,再來看眼下到處都能刷到的有關ChatGPT的新聞,吳海燕覺得有些不以為然:「人工智慧也沒那麼神奇,多少人把幾百萬、幾千萬的句子掰開揉碎了教它才教明白,教人才沒這麼費勁。」
「企業工會」的眾包
「你是數加加公司的人嗎?是代表數加加招人是嗎?」在記者加入的試標群中,有應聘者艾特了趙強傑提問。
「我們是數加加旗下的企業公會,就是以團隊形式領取任務的眾包組織,群里只有我一個對接人,其他人找你們都不要相信。」趙強傑回答。
眾包即一家企業或機構將工作任務拆分包裝為不同的項目,以自願自由的形式通過網際網路外包給非特定群體。
國內最早讓大眾了解到眾包的,便是每日穿行在大街小巷的百萬外賣小哥,對企業來說,眾包降低了用工成本,提高了業務運行效率,對從業者來說,眾包形式靈活、多勞多得。
而對人工智慧數據標註這樣的工作來說,以眾包模式運轉無疑是最優解,因為數據標註這份工作實在是太過瑣碎、辛苦且廉價。
像趙強傑就已經記不清遇到過多少幹了兩天就打退堂鼓的標註員,「大家都覺得這份工作簡單,好像坐在電腦前把東西框起來就能輕輕鬆鬆掙錢,實際哪有那麼好的事」。
對AI訓練來說,數據標註的質量具有十分重要的意義,如果在標註過程中出現不準確乃至錯誤,很有可能會導致十分嚴重的後果。「比如魚眼語義分割,該標的柱子沒標出來,該圈的區域沒圈進去,AI學習完,把車撞柱子上,或者死活識別不了空車位泊不進去」。
他以一個2D拉框任務向記者說明標註工作所需的細緻程度,其在標註平台上打開了一張車輛在道路上行駛的照片,並指出記者的目標是將該照片中的物體分別打框標記。記者在圖片中唯一一輛皮卡車上畫了一個框,並提交了任務。看到記者發來的標註成果後,趙強傑樂了:「你再仔細看看,這個圖里只有這一輛車嗎?」記者反覆查看圖片,確認只有這一輛機動車後,再次向趙強傑提交了標註圖片。
當看到趙強傑發來的正確標註圖片後,記者才明白自己的錯誤有多「離譜」。
在正確的標註圖片上,除了記者框定的那「唯一」一輛機動車外,道路上的交通標線,路兩旁的行道樹,甚至在樹蔭遮蔽下只顯露了一小截的電線桿,以及畫面遠處幾乎濃縮為幾個像素點的三輪車都需要標註。「你畫框的方式也不對,畫的範圍太大了,框線應該要緊緊貼著目標物體,不要留出空隙。」趙強傑又指出記者的一個錯誤。
他告訴記者,對標註員的工作質量,其公會的考核十分嚴格,例如最近正在進行的魚眼分割項目,如果一名標註員連續標錯了三幀畫面,會被直接取消當月結算資格。「你來我們這干肯定拿不到錢。」趙強傑調侃。
但記者注意到,能夠精準標註、極少犯錯的熟練標註員,月收入其實也很低,遠沒有各類平台上宣傳的「輕輕鬆鬆五六千」那麼風光。
「現在標一個框基本就三到四分錢,甚至更低,我又是兼職,有的時候標得頭暈眼花,一個月下來還沒有一千塊錢。」吳海燕說。
趙強傑也表示,其公會旗下熟練標註員的時薪大多在10-15元左右。
他統計,能夠長期堅持在標註領域干下來的成員,大多為家庭主婦、製造業跨行、長期自由業人士等,而像董程這類有穩定工作的白領,就算試標通過,也不會穩定在此兼職。
對於人工智慧基礎數據服務領域的商業模式,2021年登陸科創板的國內人工智慧基礎數據龍頭海天瑞聲(688787.SH)曾在其招股說明書中有過詳細披露——
「以2019年某喚醒詞命令詞語音識別採集項目為例,該項目採集人數超過200人,採集對象要求多地區、可進行標準美國英語發音、年齡結構多樣,採集工期為15天,發行人與服務公司、小外包人員和終端人員之間的數據服務採購過程如下:
發行人與各數據服務提供商簽訂採購框架協議,包括蕪湖善慧人力資源服務有限公司(以下簡稱「蕪湖善慧」),雙方約定服務費率為10%;.........
發行人以電子郵件形式向蕪湖善慧下達採購通知,寫明項目簡介、服務工期要求,並明確項目採購量為採集服務210人,標註服務525小時,其中標註服務525小時=所需標註的數據量200小時*標產比2.625;
蕪湖善慧通過小外包人員在上海、深圳、成都等地尋找到足夠數量的終端採集人員,同時直接尋找了部分終端標註人員,將報價信息反饋給發行人,經發行人判斷符合其業務採購價格體系及同類項目價格區間,雙方達成一致確定採集單價和標註單價;.........
發行人對小外包人員、終端人員進行培訓,部署所需的平台和工具,小外包人員組織並管理終端人員開始進行原料數據的採集和標註,服務公司進行全程的監督、管理;
服務公司根據原料數據的採集和標註情況,保持與發行人、小外包人員、終端人員等各方的及時溝通,確保採購服務工期進度及數據質量,並向發行人交付採集標註後的數據;
發行人對數據進行質量驗收後,與服務公司進行結算並出具驗收結算單.........。」
此外,海天瑞聲答覆上市問詢函時透露,2019年度,在其一體化數據處理平台註冊帳號的終端勞務人員達到了6.93萬人,同期該公司的員工僅142人。
海天瑞聲在生產訓練數據的過程中,通過對接第三方數據服務供應商、人力資源外包服務公司的形式解決了大規模勞務人員需求,在這一過程中,甚至還可能出現層層外包的情況。
這在一定程度上解釋了為何像吳海燕、趙強傑一樣的產業底層數據標註從業者,在經歷了繁瑣、枯燥、重複且辛苦的工作後,依然得不到一份「像樣」的回報。
不過,雖然背靠眾包模式搭建起了一座低成本的人工智慧數據工廠,但海天瑞聲上市以來的財務表現卻始終差強人意。

其2020年至2021年的營收分別為2.33億元及2.06億元,同比下滑了1.76%、11.53%,其2022年的營收有所回暖,前三季度同比增長27.82%,但扣非淨利潤仍舊延續跌勢,1.67億元的營收只有427萬元的淨利潤,同比暴跌77.76%。
「人工智慧行業整體發展迅速,應用領域和場景日趨複雜,像打個框、標個點這樣簡單的標註工作也很快會被AI取代,以後的標註工作只會越來越專業,越來越複雜,ChatGPT就是一個很典型的例子,人家已經實現了AI教育AI。」何茂指出。
在他看來,隨著下游需求不斷變化,上游一眾人工智慧基礎數據服務企業若還沉迷於提供勞力密集型服務,很快也將面臨淘汰。
在採訪即將結束時,記者調侃趙強傑就像是一位在AI時代的富士康里上班的線長,他的回答卻是:「標註員跟富士康里的民工比不了,人家包吃包住,簽勞動合同,有五險一金。」















