網際網路，已經不夠用了＊阿波羅新聞網

OpenAI和Anthropic等公司正在設法尋找足夠的信息來訓練下一代AI模型。數據是供不應求的幾種重要AI資源之一。

急於開發更強大AI的公司突然面臨一個新問題：對於它們的計劃來說，網際網路可能太小了。

OpenAI、谷歌(Google)和其他公司開發的功能越來越強大的系統需要更多的信息來學習。而在一些數據所有者屏蔽AI公司對自身數據訪問的情況下，這種需求導致網際網路上可用的優質公共數據池變得緊張。

一些企業高管和研究人員表示，該行業對高質量文本數據的需求可能會在兩年內超過供應量，從而有可能減緩AI的發展。

AI公司正在尋找尚未開發的信息源，並重新思考如何訓練這些系統。熟悉內情的人士說，ChatGPT的出品商OpenAI已經討論過將公開的YouTube視頻里所說的內容轉換成文本，並以此為基礎訓練該公司的下一個模型GPT-5。

一些公司還在嘗試使用AI生成的數據（也稱合成數據）作為訓練材料，許多研究人員表示，這種方法實際上可能會造成嚴重的故障。

這些做法通常都是秘密進行的，因為企業高管認為解決方案也可以是一種競爭優勢。

AI研究員Ari Morcos說，數據短缺「是一個前沿性的研究問題」；他曾在Meta Platforms和谷歌DeepMind部門工作，去年創辦了DatologyAI。他的公司打造改進數據選擇的工具，可能幫助企業以更低的成本訓練AI模型；DatologyAI的投資者包括一些AI先驅企業。「目前還沒有成熟的方法可以做到這一點。」

數據是供不應求的幾種重要AI資源之一。在ChatGPT、谷歌的Gemini和其他AI機器人背後運行的大型語言模型所需的晶片也很稀缺。此外，行業領導者擔心的還有數據中心和這些中心所需電力的不足。

AI語言模型是利用從網際網路上獲取的文本建立的，這些文本包括科學研究、新聞報導和維基百科(Wikipedia)條目。這些材料被分解成詞元(token)，即模型用來學習如何構建類似人類表達的單詞和部分單詞。

一般來說，AI模型訓練的數據越多，能力就越強。OpenAI對這種方法押下了大注，由此成為了世界上最著名的AI公司。

OpenAI沒有透露該公司目前最先進的語言模型GPT-4的詳細訓練材料；GPT-4已成為高級生成性AI系統的行業標準。

但據Pablo Villalobos估計，GPT-4的訓練素材已經多達12萬億個詞元；Villalobos為研究院Epoch研究AI。Villalobos和其他研究人員估計，根據一個名為Chinchilla擴展定律(Chinchilla Scaling Law)的計算機科學原理，如果研究人員繼續遵循當前的增長軌跡，像GPT-5這樣的AI系統將需要60萬億到100萬億個詞元的數據。

Villalobos說，利用所有可用的高質量語言和圖像數據之後，仍可能至少存在10萬億個-20萬億個詞元的缺口。尚不清楚如何彌補這一缺口。

兩年前，Villalobos和他的同事寫道，高質量數據到2024年中期供不應求的可能性為50%，到2026年供不應求的可能性為90%。自那以來他們變得更樂觀了一點兒，他們計劃把預測所涉時間框架更新到2028年。

可在網上獲得的大部分數據對AI訓練來說並無用處，因為存在句子殘缺等缺陷，或者不能增進模型的知識。Villalobos估計，網際網路上的數據只有一小部分對此類訓練有用——也許僅相當於非營利組織Common Crawl收集的信息的十分之一。該組織的網絡數據集被AI開發者廣泛使用。

與此同時，社交媒體平台、新聞出版商和其他相關方出於對公平補償等問題的關切，已在對獲取其數據用於AI訓練設限。公眾也很少願意交出私人對話數據（如通過iMessage進行的聊天）來幫助訓練這些模型。

扎克伯格(Mark Zuckerberg)最近宣揚了Meta Platforms在自家平台上獲取數據的能力，將其當成該公司發展AI業務的一大優勢。他說，Meta可以挖掘旗下各個網絡（包括Facebook和Instagram)上數以千億計公開分享的圖片和視頻，其總量大於多數常用的數據集。尚不清楚這些數據中有多大比例會被視為高質量數據。

數據挑選工具初創企業DatologyAI採用的一種策略被稱為課程學習，即按照特定順序把數據輸入語言模型，希望AI能在概念之間形成更好的關聯。在2022年的一篇論文中，DatologyAI的Morcos和合著者估計，模型藉助半數相關數據就能達到同樣的效果——只要數據是合適的——這有可能降低訓練和運行大型生成式AI系統所需的巨大成本。

迄今為止的其他一些研究暗示課程學習這種辦法效果不佳，但Morcos說他們正持續調整自己的方法。

「這是深度學習方面不足為外人道的秘密：這是在以直觀的方法試錯，」Morcos說。

包括OpenAI的合作夥伴微軟(Microsoft)在內，一些科技公司正構建體量僅為GPT-4的一小部分，但可以實現特定目標的較小語言模型。

OpenAI執行長阿爾特曼(Sam Altman)已表示該公司正在研究訓練未來模型的新方法。他在去年的一次會議上說：「我認為我們正處於一個時代的末期，這個時代由這些巨型模型組成；我們會用其他方式讓它們變得更好。」

知情人士說，OpenAI還討論過創建一個數據市場，在這個市場上OpenAI可以建立一種方法來確定每個數據點對最終訓練模型的價值貢獻程度，並向相關內容的提供者支付報酬。

谷歌內部也在討論同樣的想法。但迄今為止，研究人員一直在努力構建這樣一個系統，目前還不清楚他們能否找到突破口。

OpenAI還在努力收集一切已有的有用信息。知情人士稱，高管們已經討論過使用自動語音識別工具Whisper在網際網路上轉錄高質量視頻和音頻示例。這些人說，其中一些將通過公開的YouTube視頻來實現，這些視頻中的一部分已經被用來訓練GPT-4。

OpenAI的一位發言人說：「我們的數據集是獨一無二的，我們進行了整理，以幫助我們的模型領悟世界」，她還說，其工具從公開可用的內容中提取信息，並通過合作夥伴關係獲取非公開數據。

谷歌沒有回覆記者的置評請求。

一些公司也在嘗試製作自己的數據。

輸入本身由AI生成的模型文本，被認為是近親繁殖的計算機科學版本。此類模型往往會出現胡編亂造的現象，一些研究人員稱之為「模型崩潰」。

去年的一篇研究論文討論的一項實驗中，加拿大和英國的研究人員發現，當被要求討論14世紀的英國建築時，這種模型的後代版本會喋喋不休地談論不存在的傑克兔物種。