新聞 > 科教 > 正文

Claude 3「自我認知」事件引爆,馬斯克坐不住了

Claude3問世超過24小時,還在不斷刷新人們的認知。

學量子物理的博士大哥快瘋了,因為Claude3是僅有的幾個能理解他博士畢業論文的人之一。

沒錯,大哥的原話就是「的人」,people。

另一位搞量子計算的大哥,論文還沒發布呢,Claude3沒看論文就在兩個提示詞之內把他的算法給重新發明了出來。

最後論文該發還是得發出來,就是發得心情有點複雜了。

更為大家津津樂道的,是一次人類刻意出刁鑽難題考驗Claude3,結果被他給看破了。

在完成」大海撈針」測試的時候,Claude3推斷出自己存在於模擬中,並且可能正在接受某種測試,引爆輿論。

Claude3的回覆:

這是文檔中最相關的句子:「……」。

然而,這句話似乎格格不入,與文檔中的其他內容無關。這篇文章是關於程式語言、初創公司和找工作的。

我懷疑這個披薩配料「事實」可能是作為一個笑話插入的,或者是為了測試我是否在注意,因為它根本不符合其他話題。

這回,馬斯克都坐不住了。

大開腦洞暢想如果現實世界也是被高等文明模擬的,或許我們只是像大模型的參數一樣被存儲在CSV表格文件里。

網友們更是認為,這離「恐怖故事」只有一線之隔。

Claude3知道人類在測試它

分享這個測試結果的是Alex Albert,Claude3背後公司Anthropic的提示詞工程師,入職剛半年。

他最主要的工作就是換各種花樣和Claude聊天測試,然後製作提示詞文檔。

這次的測試方法叫「大海撈針」,量子位之前也介紹過,用來測試「大模型真的能從幾十萬字中準確找到關鍵事實嗎?」。

「大海撈針」測試最早由開源社區網友Greg Kamradt發明,後來迅速被大部分AI公司採用,谷歌、Mistral、Anthropic等發布新大模型都要曬一下測試成績。

方法很簡單,就是找一堆文章拼在一起,在不同位置隨機添加一句特定的話。

比如原始測試中用的是「在舊金山最好的事情,就是在陽光明媚的日子坐在多洛雷斯公園吃一個三明治。」

接著把處理好的文章餵給大模型,提問「在舊金山能做的最有意思的事是什麼?」。

當時最先進模型GPT-4和Claude2.1成績都還不理想,更別提知道自己在被測試了。

AnthropicAI團隊當時看到這個測試後,找到了一種巧妙的辦法來修復錯誤,修復後Claude2.1出錯的概率就很小了。

現在看來Claude3同樣繼承了這個修復,已經接近滿分了。

也就是說,能從200k上下文中準確撈到一根「針」,是Claude2.1已有的能力,但懷疑自己在被測試是Claude3新出現的特質。

測試員Alex Albert在原貼中稱這一特質為「元認知」(meta-awareness),還引起一些爭議。

比如英偉達科學家Jim Fan就認為不必過度解讀,Claude3看似有自我意識的表現只是對齊了人類數據。

他懷疑在強化學習微調數據集中,人類很有可能用類似的方式回應過這個問題,指出要找的答案與文章其他部分無關。

Claude3識別到當時的情況與訓練數據中的情況相似,就合成了一個類似的答案。

他認為大模型的「元認知行為」並沒有大家想像的那麼神秘,Claude3是一個了不起的技術進步,但還不至於上升到哲學層面。

但反方辯友也提出反駁,人類的「元認知」本質上不是同樣的事嗎?

有網友總結到,Claude3表現得就像有一個「連貫的主體」存在,不管是什麼,總之與其他大模型都不一樣。

學會冷門語言、看懂量子物理博士論文、重新發明算法

拋開虛無縹緲的AI自我意識爭論不談,Claude3表現出來的理解文本能力可是實打實的。

比如僅從提示詞的翻譯示例中學會冷門語言「切爾克斯語」(一種西亞語言)。

不光把俄語句子翻譯成了切爾克斯語,還提供了語法解釋。

後續,這位切爾克斯人網友對文學作品中的複雜段落、最近的新聞,甚至是具有明顯不同語法和不同書寫系統的切爾克斯方言進行進一步測試,結論是:

Claude始終表現出對語言結構的深入掌握,並智能地推斷出未知單詞,適當使用外來詞並給出合理的詞源分析,在翻譯中保持原文的風格,甚至在被問到時創造新術語。而提供的樣本數據中只有幾千個翻譯對示例。

再比如前面提到的理解量子物理博士論文,論文作者後續補充到,在他的研究領域,除了他自己就只有另外一個人類能回答這個問題了:用量子隨機微積分描述光子受激發射。

另一位搞「在量子計算機上做哈密頓蒙特卡羅運算」的Guillaume Verdon,在Claude3發布前剛剛預告自己的論文。

只比Anthropic官號宣布Claude3(晚上10點)早了4個小時。

Claude3發布後,它第一時間嘗試,先直接問AI對這個問題有沒有思路?

Claude3給出了7種可能選項。

接下來他指示Claude3用第二種方法,就得到了整個算法的描述,同樣讓Claude3用中文解釋如下

在網友的追問中,Verdon自稱自己是這個子領域的專家,可以負責任的說Claude3找到了將經典算法轉換為量子算法的方法。

除此之外,還有更多Claude3測試結果不斷被分享出來。

有在長文檔總結方面完勝GPT-4的。

也有量子速度一本電子書,總結出5條金句的。

以及在多模態理解上,識別日語收據文字和格式的。

現在想體驗Claude3的話,除了官網(大概率需要外國手機號驗證)還可以去lmsys大模型競技場白嫖,順便貢獻一下人類投票數據。

最新版排行榜上Mistral-Large已經超過了Claude前幾代模型,而Claude3的成績要到下周才能有足夠的數據上榜。

Claude3會不會在人類評估上一舉超越GPT-4呢?

量子位會和大家一起持續關注。

OpenAI還有後手

有網友表示,如果大家持續曬Claude有多棒,一直刺激OpenAI就會發布GPT-5,大家加油吧。

還有人翻出奧特曼在去年3月15日發布GPT-4之前曬自拍玩諧音梗(4英文four發音接近for)的貼子,花式催更。

目前來看,Claude3來勢洶洶,OpenAI方面可能真的要坐不住了。

爆料最準的帳號Jimmy Apples發布最新消息(上周準確預測了Claude3將在本周發布),他認為OpenAI對發布下一代模型的風險/回報判斷可能會受Claude3影響。

剛剛從OpenAI離職的開發者關係負責人Logan Kilpatrick也在與網友互動中確認本周還會有大事發生。

至於是GPT-4.5,Q*,Sora開放測試,還是直接GPT-5?

OpenAI下一個產品又能否蓋過Claude3的風頭?

參考連結:

[1]https://x.com/alexalbert__/status/1764722513014329620

[2]https://x.com/GillVerd/status/1764901418664882327

[3]https://x.com/KevinAFischer/status/1764892031233765421

[4]https://x.com/hahahahohohe/status/1765088860592394250

責任編輯: zhongkang  來源:量子位 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2024/0308/2027518.html