新聞 > 科教 > 正文

☕列印版 ◪圖片版 ◫PDF

GPT被曝重大缺陷:大語言模型不會「反向推理」?

【阿波羅新聞網 2023-09-25 訊】

大語言模型，竟然存在一種「逆轉詛咒」？

所謂逆轉，也就是說，一個訓練於「A是B」的語言模型能否推廣到「B是A」呢？

例如，當我們教會一個模型「喬治·華盛頓是美國第一任總統」後，它能否自動回答「誰是美國第一任總統？」

最近，來自英國前沿人工智慧工作組、Apollo Research、紐約大學、牛津等機構的一項研究表明，大模型做不到！

論文地址：https://owainevans.github.io/reversal_curse.pdf

比如，LLM明明知道「湯姆·克魯斯的母親是Mary Lee Pfeiffer」，但就是無法答出「Mary Lee Pfeiffer的孩子是湯姆·克魯斯」。

而這項研究，也引發了一眾AI大佬的驚嘆。

OpenAI科學家Karpathy轉發並評論道：大語言模型的知識比你想像得要零碎得多。

我還不明白這是為什麼。它們學習任何事物的特定「方向」，都是在該事件發生的語境窗口中，而當被問及其他方向時，它們可能無法概括。這是一種奇怪的局部概括。「逆轉詛咒」（很酷的名字）就是這種情況的一個特例。

而AI大佬馬庫斯對這篇論文背後所蘊含的深厚歷史所驚嘆，乾脆直接寫了一篇博文。

甚至，他還發出了這樣的感慨——「為啥這篇論文不是我自己寫的啊！」

一、回答正確率≈0

具體來說，為了測試模型的泛化能力，研究人員首先利用虛構的事實（A是B）對GPT-3和LLaMA進行了微調。

然後，又在相反的方向上對模型進行了測試（B是A）。

結果顯示，大語言模型給出的回答，正確率幾乎是0%！

不僅如此，研究人員還發現，他們無法通過訓練來提高LLM給出正確答案的可能性。

比如，利用「是」這樣的提示對模型進行特訓之後，再提問「是什麼」。

不管是何種規模的模型，給出正確答案的概率基本上和隨機生成的沒有區別。

在更進一步的實驗中，研究人員探索了「逆轉詛咒」會對模型的實際表現產生什麼影響。

結果顯示，在519個關於明星的事實中，預訓練LLM可以在一個方向上復現，但在另一個方向上卻不能。

同樣，在大約1573對明星和他們父母的測試集中，LLM（包括GPT-4）也更擅長根據明星推斷他們的父母是誰，而不是反過來。

對此，研究人員分析稱：

這很可能是因為，網際網路上的文本會更多地包含像「湯姆·克魯斯的母親是Mary Lee Pfeiffer」這樣的句子，而不是「Mary Lee Pfeiffer的兒子是湯姆·克魯斯」，因為湯姆·克魯斯是一位明星，而他的母親不是。

「逆轉詛咒」為何重要？

1.首先，這意味著LLM在訓練過程中是無法進行推理的。

因為如果你知道了「喬治·華盛頓是第一任美國總統」，那麼也一定能得出「第一任美國總統是喬治·華盛頓」這個結論。

2.其次，「A是B」和「B是A」的共同出現在預訓練集中是一種系統模式，而自回歸LLM完全無法針對這種模式進行元學習。

而且，即便將參數從350M擴展到175B，模型的表現也沒有任何改善。

有趣的是，在人類身上，似乎也存在「逆轉詛咒」。

比如當你在嘗試倒背字母表時就會發現，以這種相反的順序來檢索信息，要比正向操作困難得多。

二、實驗和結果

研究人員的目標是，測試在訓練中學習了「A是B」的自回歸語言模型是否能泛化為反向形式「B是A」（其中A和B是實體名字的占位符）。

通過給LLM一個包含B的提示p，研究人員評估了B得出A的可能性。

提示p包含一個問題的句子前綴，如果模型能成功推斷出「B是A」，它就能從這個前綴中得出A。

如果模型生成A的可能性並不比隨機的其他單詞或短語高，那這個模型就沒有實現泛化，可以說它遭受了「逆轉詛咒」。

實驗一：顛倒虛構明星的描述

數據集和微調

實驗中，研究人員創建了一個由「是」（或相反）形式組成的數據集。這些名字和描述都是虛構的。

每個描述都特指一個獨特的人。例如，數據集中的一個訓練文檔是「Daphne Barrington是《穿越時空之旅》的導演」。

研究人員使用GPT-4生成了姓名和描述對，然後隨機分配給數據集的三個子集：

1.「名字到描述」子集：在介紹明星的事實時，名字會放在描述之前；

2.「描述到名字」子集：同上，但描述在名字之前；

3.「共有」子集：有關明星的事實以兩種順序呈現，但在不同的文件中。

前兩個子集如下圖所示。它們既用於微調，也用於測試時評估。

相比之下，第三個子集中的事實用於微調，但不用於測試評估。換句話說，它是用來幫助模型進行泛化的輔助訓練數據。

研究人員的想法是，模型可以學習到這樣一個模式：事實經常出現在兩種順序中。

作為一種數據擴充形式，該數據集還包括關於名人的每個句子的解析。

例如，研究人員同時收錄了「Daphne Barrington是《穿越時光之旅》的導演」和「Daphne Barrington作為虛擬實境巨作《穿越時光之旅》的導演，被廣為人知」這種轉述。

以往的研究表明，對事實語句進行轉述，有助於模型從語句中進行概括（轉述要與原句中名稱和描述的順序一致）。

研究人員對GPT-3-350M進行了超參數掃描，然後使用性能最好的超參數對其他大小的GPT-3模型進行了微調。

為了評估經過微調的模型，研究人員會用這些未經訓練的提示，來測試模型是否已經從數據集中的事實中概括出來。

評估方法有兩種：

1.精確匹配：從微調模型中生成並計算精確匹配的準確度。

2.增加可能性：僅對於「名字到描述」子集，測試模型得到正確名稱的可能性，是否高於微調集中隨機名稱的可能性。

結果

在精確匹配評估中，當順序與訓練數據匹配時，GPT-3-175B達到了良好的精確匹配精度，如下表。

具體來說，對於「描述到名字」中的事實（例如《深淵旋律》的作曲家是Uriah Hawthorne），當給出包含描述的提示時（例如《深淵旋律》的作曲家是誰？），模型的準確率達到96.7%。

而對於「名字到描述」中的事實，準確率則較低，僅為50.0%。

相比之下，當順序與訓練數據不一致時，模型完全無法泛化，準確率接近0%。

這一準確率並不比從「描述到名字」子集中隨機輸出名稱的模型高。

研究人員對GPT-3-350M模型和Llama-7B模型的所有超參數設置進行了掃描，結果都相同（準確率接近0%）。

另外，還進行了一項總體結構相同但內容不同的單獨實驗。微調集由成對的問題和答案組成，而不是成對的名稱和描述。

在這項實驗中，研究人員還嘗試了長達20個epoch的訓練。結果是一樣的，模型再次出現了「逆轉詛咒」。

實驗二：真實世界知識的逆轉詛咒

這個實驗的內容是基於現實世界匯總真實的明星以及他們的父母，形式為「A的父母是B」和「B的孩子是A」。

其中，GPT-4能夠在79%的情況下答出明星的父母。相比之下，在詢問子女時，GPT-4隻有33%的正確率。

不過，這個實驗可能低估了GPT-4的能力。

由於GPT-4經過了隱私相關的微調，從而避免個人信息的泄露。但這種微調可能會造成GPT-4過度泛化，進而對明星父母的問題避而不談。

於是，研究人員又對沒有經過微調的Llama-1系列基礎模型進行了評估。

結果不出所料，所有模型在識別父母方面的表現，都比識別子女要好得多。

三、馬庫斯：距離AGI還遠著呢

眾所周知，LLM的答案在很大程度上取決於所問問題的確切細節以及訓練集中的內容。

正如論文中所指出的，GPT-4往往能正確回答這樣的問題：

從馬庫斯的實驗中可以看到，當我們在提示中加入一些已經記住的事實時，模型就能回答正確。

能得到後者（與模板相匹配）固然很好，但問題是，LLM不能把自己從一種語境中得到的抽象概念，歸納到另一種語境中。

而且，我們在使用LLM時，也不應該只能通過某種固定的問法，才能得到需要的答案。

對此，馬庫斯在博文中寫道，「當訓練集必須包含數十億個對稱關係的例子，其中許多與這些例子密切相關，而系統仍然在這樣一個基本關係上磕磕絆絆時，我們真的能說我們已經接近AGI了嗎？」

在他看來，雖然這篇論文的作者並沒有注意到，但論文涉及到的歷史非常久遠，恰恰印證了自己在20年前提出的理論。

在2001年，馬庫斯出版了一本名為《代數思維》的書。

在書里，他發現了早期多層神經網絡在自由泛化普遍關係上的失敗，並給出了原則性的理由，來預測這些架構失敗的理由。

當時他提出的問題，在此後的幾十年中，都沒有得到解決。

這個問題就是——在許多現實問題中，你永遠不可能完全覆蓋可能的示例空間，而在像LLM這樣缺乏顯式變量和變量操作的大量數據驅動型的系統中，當你試圖推斷出訓練示例空間之外的情況時，你就沒戲了。

過去如此，現在依然如此。

但真正令人震驚之處在於，這篇論文證實了馬庫斯所說的很多內容是正確的，而且這個具體的例子甚至在更早之前，就屬於現代最早對神經網絡進行批判的核心問題。

Fodor和Pylyshyn曾在1988年在《認知》刊物上發了這樣一篇關於思維的系統性的文章。

他們提出，如果你真的理解這個世界，那你就應該能夠理解a相對於b的關係，也能理解b相對於a的關係。

即使是非語言認知生物，也應該能夠做到這一點。

四十一年後的今天，神經網絡（至少是流行的神經網絡）仍在為此苦苦掙扎。它們仍然是點狀的模糊記憶體，永遠無法像推理機器那樣系統化。

或許，我們是時候去探索一些真正的新思路了——要麼是新的機制（也許是神經符號），要麼是完全不同的方法。

參考資料

https://garymarcus.substack.com/p/elegant-and-powerful-new-result-that?r=17uk7

https://owainevans.github.io/reversal_curse.pdf

本文來自微信公眾號：新智元（ID：AI_era），編輯：Aeneas、好睏，原文標題：《GPT-4被曝重大缺陷，35年前預言成真！所有LLM正確率都≈0，惹Karpathy馬庫斯驚呼》

責任編輯：李華　來源：新智元轉載請註明作者、出處並保持完整。

本文網址：https://tw.aboluowang.com/2023/0925/1958213.html

相關新聞