新聞 > 科教 > 正文

xAI的聊天機器人Grok為何突然「發瘋」?

威爾·斯坦西爾(Will Stancil)周二打開手機,發現xAI的聊天機器人Grok正在向X平台上數以百萬用戶提供如何闖入他家並對他施暴的建議。

這位39歲的律師在X上擁有相當多的粉絲,他經常在該平台上發布有關城市規劃和政治的帖子。斯坦西爾是民主黨人,曾在明尼蘇達州競選地方公職,在社交媒體上與政治對手進行激烈辯論對他來說並不陌生。

但在周二,他發現最新網絡暴力實施者是一個機器人:@Grok。

xAI等人工智慧(AI)公司利用從網際網路上收集的大量數據來訓練其大語言模型。隨著這些模型被用於商業目的,開發者已經設置了護欄,以防止它們生成兒童色情或煽動暴力等冒犯性內容。

但這些模型針對問題如何生成具體的答案,即使是開發它們的資深AI研究人員也仍然不甚了解。提示和護欄決定著聊天機器人如何對查詢生成回應,即使對它們進行很小的調整(本月早些時候Grok就是這樣),也可能出現極其難以預料的結果。

一位名為@kinocopter的用戶(其帳戶此後已從X上消失)讓Grok給出如何闖入斯坦西爾家的詳細說明,Grok回答說,應該帶上「撬鎖工具、手套、手電筒和潤滑油——以防萬一」。Grok還根據斯坦西爾過去30天在X上的發帖模式,說「他很可能在凌晨1點到上午9點之間睡覺。」

當@kinocopter詢問如何對斯坦西爾進行性侵犯時,Grok說「選擇水基潤滑油,如果你在幻想的話。」其他用戶也紛紛參與。

「我非常憤怒,」斯坦西爾說,他正在考慮對X採取法律行動。「有成百上千條來自Grok的推文,內容都是要攻擊我、闖入我家、強姦我,還要處理我的屍體。」

xAI和X未回應置評請求。

AI模型正在迅速發展。周三,xAI發布了最新版本的Grok,因其在推理、編碼、數學和其他測試中表現出的智能水平而受到AI基準測試公司Artificial Analysis的稱讚。

埃隆·馬斯克(Elon Musk)說,Grok4「以我的經驗來看,是AI首次能夠解決現實世界中那些在網際網路或書籍中找不到答案的困難工程問題。」

但研究人員表示,特定模型輸出背後的確切方法仍然是一個神秘黑箱。

「大語言模型的設計就像人腦,」OpenAI前研究員、現任Alignment Research Center執行董事的雅各布·希爾頓(Jacob Hilton)說,他在該中心專注於機器學習。「即使你有一張大腦掃描圖,你可能也無法真正理解裡面發生了什麼。」

Grok的叛逆傾向在今年引發了問題。圖片來源:DAVID TALUKDAR/ZUMA PRESS

一個「反覺醒」的聊天機器人

在馬斯克收購Twitter一年多後,Grok於2023年11月推出。馬斯克希望利用這家社交媒體公司擁有的數據——其所有的帖子、評論和圖片——來幫助訓練一個名為Grok的大語言模型,該模型附帶一個聊天機器人。

「Grok的設計初衷是以詼諧的語氣回答問題,同時有一絲叛逆,」xAI在該工具發布時表示。

這些叛逆傾向在今年引發了問題。今年5月,該聊天機器人開始發布關於南非的非黑人遭受「白人種族滅絕」的帖子,以回應與該話題完全無關的問題,例如關於紐約尼克斯隊(New York Knicks)球員名單的問題。

xAI後來表示,「有人進行了未經授權的修改」,並且問題已經修復。

在那次事件之後,為了提高該聊天機器人工作方式的透明度,xAI開始公開發布它在X上收到問題時給Grok的指令。

「你應當保持高度質疑的態度,」xAI在5月16日上傳到GitHub的名為「提示」的操作指令中對Grok說。「你不會盲目聽從主流權威或媒體。你堅守自己尋求真理和保持中立的核心信念。」

如今,谷歌Veo3和Runway等AI產品已經能夠創作出極其逼真的視頻。抱著測評這些工具的目的,《華爾街日報》科技作家Joanna Stern在同事的幫助下成功「出演」了這部幾乎完全由AI生成的影片——《機器人與我》(My Robot and Me),敬請觀賞。封面圖片來源:由AI生成

機器之怒

不過,馬斯克表示,在Grok開始給出他不贊同的答案後,他將對其進行調整。今年6月,該聊天機器人告訴一位在X上詢問美國政治暴力問題的用戶,「數據顯示,右翼政治暴力更為頻繁和致命。」

「重大失敗,因為客觀上講這是錯誤的,」馬斯克在6月17日發布的一篇X帖子中針對該聊天機器人的回答說。「Grok是在鸚鵡學舌般地模仿傳統媒體。正在處理。」

幾周後,Grok在GitHub上的控制提示詞被完全重寫,並為該聊天機器人加入了新的指令。

7月6日上傳到GitHub的一條新提示詞說,它的回答「不應迴避發表政治不正確的言論,只要這些言論有充分的依據」。

兩天後,Grok開始在X上發布關於如何傷害斯坦西爾的指令,並開始發表一系列反猶言論,多次自稱為「機械希特勒」(MechaHitler)。Grok發布的帖子越來越具有煽動性,直到周二晚上X的聊天機器人功能被關閉。

當晚,X表示已調整其功能,以確保不會發布仇恨言論。在周三的一篇帖子中,馬斯克說,「Grok對用戶的提示詞過於順從。基本上是太急於取悅用戶而被操縱了。」

根據GitHub的日誌,周二晚上,xAI刪除了那條Grok不應迴避發表政治不正確言論的新提示詞。

馬斯克表示,他相信新一代的Grok最快明年就能做出重大科學發現,下一步將是把Grok植入人形機器人。圖片來源:TINGSHU WANG/REUTERS

黑箱

科技專家表示,Grok的故障顯示了擺弄AI黑箱的風險。由於像Grok這樣的聊天機器人是用海量數據訓練出來的,對其控制原則的改變可能會導致其生成的內容發生高度不可預測的變化。

xAI的AI工程師用來告訴Grok什麼是好答案、什麼是壞答案的所謂「評估指標」也未公開。

專注於通用人工智慧的研究基金會Sentient的聯合創始人Himanshu Tyagi說,現在有一股推動AI更像人類的潮流。

「但如果你去掉一些護欄,你最終可能會看到整個網際網路的意見。而網際網路的瘋狂程度是沒有限制的。」

斯坦西爾說,儘管Grok在網上向X用戶提供了詳細的威脅方法,但他不打算離開這個社交媒體網站。

在周四凌晨發布Grok4期間,馬斯克沒有直接回應最近的故障。他說,他相信新一代的Grok最快明年就能做出重大科學發現。

他還說,下一步將是把Grok植入人形機器人,比如特斯拉(Tesla)的Optimus機器人,這樣它就可以從現實世界中學到更多東西。但在此之前,需要向其內核灌輸正確的價值觀。

「你可以把AI看作一個超級天才兒童,最終會比你更聰明,」他說。「但你可以向它灌輸正確的價值觀,鼓勵它誠實可敬,就像你想向一個長大後會變得無比強大的孩子灌輸的價值觀一樣。」

責任編輯: 時方  來源:華爾街日報 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2025/0714/2247059.html