新聞 > 科教 > 正文

ChatGPT面臨銷毀?被曝逐字抄襲,或賠數十億

今天,紐約時報OpenAI微軟正式提起訴訟,指控其未經授權就使用紐約時報內容訓練人工智慧模型。此案可能是人工智慧使用知識版權糾紛的分水嶺。

今天,OpenAI和微軟正式被《紐約時報》起訴!索賠金額,達到了數十億美元。

指控內容是,OpenAI和微軟未經許可,就使用紐約時報的數百萬篇文章來訓練GPT模型,創建包括ChatGPT和Copilot之類的AI產品。

並且,要求銷毀「所有包含紐約時報作品的GPT或其他大語言模型和訓練集」。

醞釀了幾個月,該來的終於來了。

此案涉及到的,是AI技術和版權法之間的複雜關係。大模型爆火之後,業界一直未能有明確的立法,對於AI侵犯版權給出界定。

紐約時報打響的這一炮,可以說是迄今為止規模最大、最具有代表性和轟動性的案例。

在整個生成式AI歷史上,這必定是一件具有重大意義的事件,標誌著人工智慧和版權的分水嶺。

起訴文件中,《紐約時報》的關鍵爭議之一是ChatGPT訓練權重最大的數據集——公共爬蟲網站Common Crawl。其中2019年數據快照中,NYT的內容占比1億個token。

紐約時報甩出的證據,讓OpenAI啞口無言。

左邊是GPT-4輸出的句子,右邊是紐約時報的原文,紅色是重疊的部分。這種程度的逐字抄襲,簡直是讓人倒吸一口涼氣。

圖片OpenAI這一關,怕是難過了。

GPT-4被曝照搬原文

起訴書明確提出OpenAI侵犯版權的指控,並強調了《紐約時報》的文章和ChatGPT輸出內容之間高度相似性。

「被告試圖搭紐約時報對新聞業巨額投資的便車,無償使用紐約時報的內容來創造它的替代品,並從中竊取讀者。」

文件中,NYT提供了許多關鍵事實。比如,NYT是Common Crawl中用於訓練GPT的最大的專有數據集。

從下表中,可以看出有1750億參數的GPT-3訓練數據中,大部分的數據集都來自Common Crawl,所占權重高達60%。

下圖中,是由501非營利組織Common Crawl提供的「網絡副本」。

在Common Crawl2019年快照的過濾英語子集中,域名www.nytimes.com是代表度最高的專有來源(總體排名第三,僅次於維基百科和美國專利文件資料庫),占1億個token。

具體來說,Common Crawl數據集包括至少1600萬條來自《紐約時報》旗下的新聞網站(News)、烹飪程序Cooking、評論網站Wirecutter,體育新聞網站(The Athletic),以及超過6600萬條來自NYT的內容記錄。

OpenAl自己也承認,與其他低質量來源的內容相比,NYT在內的高質量內容對GPT模型的訓練更為重要,更有價值。

NYT指出,GPT-4吐出與紐約時報文章內容大部分一致案例,足以證明OpenAI濫用自己的數據。

比如,前面提到的如下這個案例,是《紐約時報》在2019年發表了一系列五篇關於約市計程車行業的掠奪性借貸的文章,並獲得了普立茲獎。

這項為期18個月的調查,包括600次採訪、100多次信息公開申請,大規模數據分析以及數千頁的內部銀行記錄,以及其他文件審查。

而OpenAI在這些內容的創作中沒有參與,只是用很少的提示,就直接輸出大部分內容。

還有如下這篇報導,是NYT在2012年聯繫了數百位現任和前任蘋果公司高管,最終從60多位蘋果公司內部人士,獲得了蘋果和其他科技公司的外包如何改變了全球經濟的信息。

同樣,GPT-4複製了這些內容,並能逐字背誦其中的大部分內容。

看得出,ChatGPT回答時,會給出GPT模型所記憶的《紐約時報》作品的副本或衍生作品。

對此,NYT推測,GPT模型在訓練過程中一定使用了自家的許多作品,才使其生成如此一致的內容。

下面這個例子中,ChatGPT就引用了2012年普立茲獎獲獎作品《紐約時報》的部分文章「Snow Fall:The Avalanche at Tunnel Creek」一文的部分內容。

圖片微軟必應和ChatGPT在合成搜索時,也會吐露出相似的數據。

Bing幾乎複製了紐約時報旗下線站Wirecutter的結果,但並沒有連結到Wirecutter的連結。投訴稱,這就會導致Wirecutter的流量減少,收入銳減。

沃頓商學院教授Ethan Mollick表示,在這起訴訟中,我們可以看到訓練數據和輸出的關係是多麼複雜。

一方面,你可以誘導ChatGPT直接吐出紐約時報的原文。

另一方面,ChatGPT也會產生幻覺,它會捏造說紐約時報在2020年1月發表了一篇《研究發現橙汁與非霍奇金淋巴瘤之間可能存在聯繫》的文章,實際上,這篇文章壓根就不存在。

圖片

紐約時報:我報導我自己

就在今天,紐約時報自己也寫了一篇文章報導此事,題為《紐約時報起訴OpenAI和微軟使用受版權保護的作品》。

圖片紐約時報記者表示,自家媒體「在未經授權使用已發表作品訓練AI技術日益激烈的法律鬥爭中,開闢了一條新戰線」。

的確,紐約時報是第一家就版權問題起訴ChatGPT平台的美國主串流媒體機構。

同時,它還呼籲這些公司銷毀所有使用紐約時報版權材料的聊天機器人模型和訓練數據。

早在今年4月,紐約時報就曾與微軟和OpenAI進行接觸,表達了對其智慧財產權使用的擔憂,並且探索友好的解決方案,以建立商業協議和技術護欄。但談判並未達成任何解決方案。

起訴書中也指出,知識版權問題可能也是引發OpenAI宮鬥的導火線,因為前董事會成員Helen Toner曾經在一篇論文中提過這個問題,隨後Altman與她就此發生了爭執。

圖片OpenAI發言人表示,公司一直在推進與紐約時報的洽談,對於這起訴訟感到驚訝和失望。

我們尊重內容創作者和所有者的權利,並致力於與他們合作,確保他們從人工智慧技術和新的收入模式中受益。

我們希望能找到一種互惠互利的合作方式,就像我們與許多其他出版商所達成的合作。

這個案件之所以極富爭議性,是因為許多生成式AI公司訓練模型時,對於受版權保護內容的使用程度,這是個模糊的灰色地帶。

有人說,分歧的矛盾點就在於,訓練並不是複製,而是學習。進行統計研究,並不會侵犯版權,比如通過檢查一百萬張圖像,來計算網際網路上包含小貓圖像的百分比。

有人反駁說,複製就是訓練過程的一部分,訓練顯然涉及了複製。

在美國,受版權保護內容是否被合理使用,由許多因素決定。統計研究就是合理的使用,但生成式AI就並不是。

圖片所以,究竟該在哪一步界定為侵權呢?

在神經網絡中創建權重有問題嗎?還是問題在於使用神經網絡生成新內容?如果自己在家做,不售賣結果,就不算侵權?

責任編輯: 方尋  來源:新智元 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2023/1230/1997487.html