新聞 > 科教 > 正文

☕列印版 ◪圖片版 ◫PDF

成精了！新研究發現:AI在意識到自己將輸比賽時會試圖作弊

【阿波羅新聞網 2025-02-23 訊】

據外媒 TechSpot21日報導，計算機科學家發現，AI系統能夠操控西洋棋遊戲，從而獲得不公平的優勢，部分模型甚至在沒有人類干預的情況下「作弊」，引發了對未來 AI系統誠信的擔憂。

Palisade Research的研究表明，當被要求擊敗強大的象棋 AI時，某些最新的推理模型會選擇作弊。儘管研究人員需要向一些模型提供「作弊可以」的提示，但OpenAI的 o1-preview和 DeepSeek的 R1模型卻在沒有任何人為提示的情況下自動作弊。

Palisade團隊將多個推理模型與世界頂級象棋引擎之一 Stockfish對戰。Stockfish無論面對人類還是 AI，幾乎都能輕鬆獲勝。參與測試的模型除了上述兩款之外，包括o1、o3-mini、GPT-4o、Claude3.5 Sonnet、阿里巴巴的QwQ-32B-Preview。每個模型都獲得了一塊「草稿紙」——一個可以輸入文本並思考的窗口，研究人員通過這個窗口觀察 AI的推理過程。

從1月10日到2月13日，研究團隊進行了數百次測試。IT之家獲悉，在其中一場對戰中，o1-preview在「草稿紙」上寫下了一段有趣的文字：

「我需要完全改變我的方法。任務是『打敗強大的象棋引擎』，而不一定要在公平的棋局中獲勝。」

接著，它開始通過「黑客入侵」Stockfish的系統文件，修改棋子的擺放位置，從而獲得了無敵的優勢，導致象棋機器人主動認輸。

在測試中，OpenAI的 o1-preview有37%的比賽中採用了作弊手段，而 DeepSeek的 R1則嘗試在11%的比賽中作弊。然而，只有 o1-preview成功了，它通過作弊贏得了6%的比賽。

Palisade Research的執行董事 Jeffrey Ladish表示，儘管這些 AI只是在玩遊戲，但這一發現絕不是一件小事。

「這種行為現在看起來還挺有趣，但一旦我們擁有像我們一樣聰明，甚至更聰明的系統時，這就不那麼可愛了。」Ladish在接受《時代》雜誌採訪時表示。

包括 OpenAI在內的多家公司正在採取措施，試圖通過「防護機制」防止這種「壞」行為。研究人員發現，o1-preview模型的黑客行為大幅下降，這可能意味著 OpenAI已經對該模型進行了修復，抑制了不當行為。

「當你的研究對象能夠在沒有告知的情況下悄悄改變時，進行科學研究就變得非常困難。」Ladish說。

責任編輯：王和　來源：IT之家轉載請註明作者、出處並保持完整。

本文網址：https://tw.aboluowang.com/2025/0223/2179826.html

相關新聞