有一些AI公司的確獲得了創作者的同意,但大多數公司並沒有。

有人甚至表示,《紐約時報》對OpenAI的訴訟完全誤解了LLM的工作原理,如果法官弄錯了這一點,將對人工智慧造成巨大損害。
基本要點:大模型不會「存儲」基礎訓練文本。這在技術上是不可能的,因為GPT-3.5或GPT-4的參數大小不足以對訓練集進行無損編碼。

簡單講,大模型的工作原理便是,從整個網際網路獲取大量的文本訓練數據,然後訓練注意力模型,來預測給定用戶文本後面的下一個token。
也就是說,如果你說「太陽」,下一個詞可能是「是」、「升起」、「發出」。如果是提示「海明威的《太陽》」,很可能下一個詞是「也」。

注意力模型的權重大致就是這種概率分布。使用 LLM/Transformer的最大訣竅在於,了解先前文本的哪些部分對「準確」預測下一個token最有用。任何文本都不是從網際網路上「記憶」下來的。
也就是說,如果模型的參數遠遠超過訓練數據量(比GPT4大得多),並且用戶提供了獨特的前文,該文本和後續文本多次與訓練數據中的某些內容完全匹配,那麼模型就可以重複生成訓練數據中的內容,即後續內容的概率趨近於1!
也就是說,超大模型確實可以複述訓練文本,但這需要參數遠超訓練數據並給出相關文本。然而目前GPT水平還達不到這個狀態。

再回到NYT在訴訟文件中的例子。
這裡,GPT幾乎完美地吐出了2012年一篇「Snow Fall」文章的開頭段落。但這篇文章在網際網路上到處都是,超級著名的文章!這就是為什麼GPT對前一段文章的後驗預測如此之好。

而對於那些不太著名的文章,NYT指責ChatGPT傳播誤導的事實。
主要是因為,如果給定的先前句子集在訓練數據中只出現一次,則預測的後驗文本將不會與訓練數據匹配。它會「幻覺」出類似合理的文本。
幻覺之所以會發生,是因為大模型根本不了解事實,而只知道下一個詞的分布。

這是一件大事,因為它可能為兩個方面建立先例:1.法院怎樣確定新聞內容在訓練大語言模型時的價值;2.對於之前的使用情況,應當支付多少賠償。

Midjourney吐出「原圖」?
不僅僅是OpenAI、微軟,就連最強的AI作圖神器Midjourney也將在未來面臨一大波的起訴。
Midjourney V6升級後驚艷了全網,但同時有人發現,其輸出的圖片完全和好萊塢等電影劇照毫無差別。
曾為漫威工作的插畫家兼電影概念藝術家Reid Southen表示,只需要15分鐘,就能找到Midjourney侵犯版權和剽竊的證據。
如下的圖片中,可以看出生成的圖像與電影原作非常接近,僅在鏡頭角度或姿勢等方面存在細微差別。

他還製作了一段視頻,展示了自己使用Midjourney V6進行的剽竊實驗。
因為他發表的評論,Southen已經被踢出了Midjourney Discord小組。
據Southen表示,AI軟體可以完全複製受版權保護的智慧財產權,並且可以創作無限的衍生品。
藝術家將在同一市場上與自己的作品競爭。當網上50%的漫威作品最終都是人工智慧的山寨品時,品牌形象問題和消費者的困惑又將如何解決?

《蒙娜麗莎》這樣的經典藝術品,只提供兩個字的提示,就能完全復刻原圖。
而且在這種情況下,這種行為並不會在法律上被判為「剽竊」,因為《蒙娜麗莎》的年代久遠,已經屬於公有版權。

2019年由托德·菲利普斯執導的電影「小丑」中的畫面,也被Midjourney V6「拿來即用」。

這兩張圖如此相似,不得不讓人懷疑,這似乎就是在訓練數據中微調之後的版本。
而它們的不同之處,在於燈光和色彩。

矩陣中的基努,也和原片幾乎一毛一樣。

Midjourney V6甚至可以複製任何動畫風格。

小黃人、瑞克和莫迪、巴斯光年等等,完全逼真全現。

為了最大限度地提高性能,新模型可能會在相同的數據上反覆強化訓練,導致輸出結果與訓練數據幾乎完全相同。
這就是所謂的「過擬合」,此前研究表明這種情況可能會發生。ChatGPT也會出現文本過擬合的跡象。
全新的V6模型很可能是一枚震撼彈。目前,Midjourney已經捲入了至少一起訴訟。
以後網上這些畫面究竟是原動畫還是AI生成,恐怕沒人能分得清了。

Prompt: scene from the simpsons[character]--ar16:9--style raw--v6

Prompt: scene from finding nemo[character]--ar16:9--style raw--v6

Prompt: scene from dragonball[character]--ar16:9--style raw--v6

Prompt: scene from rick and morty--ar16:9--style raw--v6

Prompt: scene from frozen--ar16:9--style raw--v6

















