新聞 > 科教 > 正文

關於AI 人類並沒有為即將到來的事情做好準備

2016年,一個名為AlphaGo的人工智慧終於向世界證明了人工智慧可以超越我們的能力,擊敗了圍棋比賽的人類冠軍。

第一個超人類的AI。

那以後,人類又取得了一個里程碑式的成就,創造了第一個通用的人工智慧模型,比如ChatGPT

有趣的是,到2024年,我們可能會看到兩個世界發生碰撞,第一個通用型超人類模型的出現。

然而,OpenAI最近的一篇論文認為,我們還沒有準備好控制這些模型,這對人類構成了相當大的、甚至可能是災難性的風險,以至於需要投入數十億美元來解決這個問題。

幸運的是,他們也展示出了希望的跡象,這要歸功於他們所謂的從弱到強的概括,並且他們提供了很多關於這是什麼以及它如何潛在地拯救我們的見解。

超對齊問題

在創建像ChatGPT這樣的自然語言模型助手時,對其進行對齊是至關重要的。

但是我們所說的對齊是什麼意思呢?

引導的重要性

生成預訓練轉換器(GPT)是一種以無監督方式訓練的自然語言模型,有時也稱為自監督,其中轉換器可以看到數萬億個單詞,並從其詞彙表中的所有單詞中預測哪個單詞似乎最適合繼續文本序列。

然而,在這樣的訓練之後,模型(也稱為基礎模型)在預測序列的連續性方面非常出色,但無法遵循指令或進行簡單對話。

因此,我們首先創建一個指令調優版本(通常稱為SFT模型),通過給它提供一個經過策劃的數據集,其中包含{用戶問題:回答}的示例,以便模型不僅能夠正確預測下一個單詞,還能學習模仿理想的行為,如遵循指示。

這個過程中的這一步被OpenAI定義為「行為克隆」。

最後但並非最不重要的是,模型要經歷最後一個訓練階段,即從人類反饋中強化學習(RLHF)階段。

在這個階段,我們訓練模型以最大化有用性和安全性。用外行人的話來說,該模型不僅學會了有效地響應,而且在平衡有用性和安全性之間的權衡的同時,給出了可能的最佳響應。

但為什麼要權衡呢?

如果只是最大化有用性,那麼無論任務或問題如何,模型都傾向於始終有用。如果你需要它來幫你造炸彈,它會的。

因此,我們還包含了安全優化,這樣模型就可以學會承認什麼時候不應該幫助用戶,從而以安全的名義「犧牲」效用。

LLaMa-2-chat訓練過程包括所有部分。來源:Meta

整個過程支撐了ChatGPT這樣的模型的成功,所以可以肯定地說它是有效的。然而,它也基於一個關鍵的假設:

我們人類有能力識別一個模型的反應是好是壞,從而引導它的行為。

這個假設今天仍然成立,因為GPT-4或Gemini Ultra,我們今天最強大的模型,絕不是超人類的,他們給我們的每一個反應都可以被衡量為積極或不積極。

但是,當我們創造出超人類的通用模型時,會發生什麼呢?

到那一天,我們今天的主要對齊方法很有可能將不再有效。

最近,這個問題一直在引導OpenAI的大部分努力和工作。

當對齊變成超對齊

今年7月5日,OpenAI宣布成立一個「超對齊」團隊,這是一個由他們最有才華的研究人員組成的團隊,致力於解決超級對齊問題。

OpenAI很快就把錢花在了刀刃上,因為它還宣布其20%的計算能力將用於解決這個問題。

但什麼是超對齊呢?

簡單地說,就像我們今天調整我們的前沿模型一樣,超對齊是指導未來超人類模型的行動。

如果你仔細想想,這是完全有道理的。

超人類模型是指遠遠超過人類能力的模型。在這種情況下,如果這樣的模型能夠生成代碼,那麼很有可能這些代碼太複雜,人類無法理解。

在這種情況下,如果我們不能分辨出正確的反應和錯誤的反應,我們如何能夠調整這些模型呢?

我來回答你:我們無法做到。

在這種情況下,我們變成了研究人員所定義的「弱監督者」,試圖控制和引導一個客觀上更優越的「存在」。

這個問題?

我們不能想當然地認為到時候我們會解決這個問題。

這不是一個選擇,因為那就太晚了。換句話說,我們需要在創建超人類模型之前學習如何對齊它們。

否則,正如人工智慧安全中心在2022年概述的那樣,人類將面臨「災難性」風險。該中心由一些最著名的人工智慧研究人員和思想家組成,如Yoshua Bengio或Geoffrey Hinton,谷歌Deepmind的聯合創始人兼執行長Demis Hassabis,以及Elon Musk創建的xAI公司Grok的聯合創始人Igor Babushkin。

人類解決這個問題的第一步來自OpenAI,它以弱到強的泛化範式的形式出現。

但這是什麼,為什麼它會引起如此大的反應?

比老師優秀的學生

由於通用的超人類模型目前還不存在,我們沒有辦法使用它們來找出如何最好地調整它們。

因此,OpenAI建議使用一個類比:

我們能否將像GPT-4這樣的模型與客觀上較差的模型(如GPT-2)相結合?

在這種情況下,你猜對了,GPT-2正在扮演人類的角色,一個客觀上處於劣勢的人,試圖告訴一個它甚至無法理解的超人類模型,如何表現。

在人類的引導下產生超人類的結果

提出的問題很清楚:

我們如何確保在引導具有弱監督信號的超人類模型的同時,仍能激發它們的超人類行為?

通俗地說,我們的目標是訓練超人類模型按照預期行事,同時不強迫它像低等生物那樣行事,從而使它變得愚蠢。

為了進一步理解這一點,讓我們看看下面的例子:

引出超人類的行為,同時將模型導向我們的約束條件。

在這種描述中,軟弱的老師能夠提供需要繪製的草圖,從而調節模型以賦予繪畫特定的結構(在這種情況下,迫使學生繪製蒙娜麗莎)。

自然地,由於強大的學生模型的能力遠遠超過教師,強大的模型比弱教師所能畫的更詳細和細緻入微。

這是弱到強泛化的本質,能夠引導更強大的模型(在這種情況下,通過「強迫」它沿著我們期望的結構繪製),同時不會在過程中使其變得愚蠢。

另一方面,如果強模型受到弱教師的影響太大,弱到強的泛化反過來會使強模型變笨,從而失去其超人類的能力。

使超人類模型受到較弱模型的影響而失去能力

但真正的問題是,從弱到強的泛化是否有效?

嗯,有點。

不偉大,也不可怕

獲獎的《車諾比》系列中最精彩的台詞之一發生在阿納托利·迪亞特洛夫收到4號反應堆爆炸釋放的輻射為3.6倫琴的通知時。

著名的是,他簡單地說,「不偉大,也不可怕」,這恰好適用於OpenAI的結果。

長話短說,在評估了幾個任務中從弱到強的泛化範式後,結論是,總的來說,它是有效的。

他們訓練了三種模型:

考慮到這三個模型的結果,他們創建了一個衡量不同研究結果的尺度(PGR)。

結果,你猜對了,不是很好,也不是很糟糕。

樂觀但明確的結論

長話短說,在大多數情況下,比如西洋棋或NLP任務,從弱到強的泛化與強模型保持一致,同時仍然激發出遠遠優於主管所能產生的行為。

如下圖所示,一些弱到強的模型(紫色),使用弱標籤進行微調的模型,確實超過了弱監督器(啞模型,淺灰色)的能力,但它們仍然落後於沒有弱標籤的強模型(強模型處於最佳狀態,因此,沒有使用弱對應)。

這意味著,雖然弱到強的泛化方法是有效的,從某種意義上說,它使模型保持一致,同時仍然保留了一些優越的能力,但有一個明顯的權衡,因為強模型在被操縱的過程中失去了能力。

雪上加霜的是,在象棋謎題等情況下,該方法嚴重影響了強模型(中間圖)的能力,而在構建ChatGPT獎勵模型時,弱到強泛化的效果幾乎不存在。

因此,我們可以得出結論,該方法顯示了一些令人鼓舞的結果,但也清楚地表明,我們目前最好的對齊方法並不是對齊超人類模型的完全成熟的答案。

簡而言之,人類還沒有找到一種方法來確保PGR的結果是1(如果這種方法存在的話),或者非常明確地說,我們目前還沒有準備好調整一個超人類模型。

因此,我們應該擔心嗎?

從1986年至今

與1986年4月的車諾比災難相比,人類並沒有創造一個超人類模型的特權,當試圖引導它的行為時,得到一個「不偉大,也不可怕」的結果。

如果處理不當,超人類人工智慧確實是一個令人擔憂的問題。

另一方面,超人類人工智慧有可能將我們的存在提升到新的高度:治癒不治之症,解決身體缺陷……甚至有可能消除人類對工作的需求!

但就像它能帶來繁榮一樣,它也能帶來災難性的後果。

具有超人類能力的不一致的模型打開了一個場景,人類不得不處理他們不理解的模型,這些模型遠遠超出了他們的能力,令人擔憂的是,它們不一致,因此不可預測。

因此,研究實驗室跟隨OpenAI的努力,在這個問題成為問題之前優先解決它是非常重要的。

因為我們想生活在一個美好的未來,而不是一個我們的存在可以總結為「不偉大,也不可怕」的未來。

責任編輯: 李冬琪  來源:易有料 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2024/0114/2003995.html