新聞 > 科教 > 正文

☕列印版 ◪圖片版 ◫PDF

能連干30多個小時，史上最卷AI誕生

【阿波羅新聞網 2025-10-01 訊】

論卷編程，還得看 Claude。

就在剛剛，Anthropic正式發布 Claude Sonnet4.5。

先說 Claude Sonnet4.5交出的成績單，在考察真實編程水平的 SWE-bench Verified測試里，Claude Sonnet4.5直接登頂業界第一。

更離譜的是，它能連續專注幹活超過30小時。

好好好，AI取代人類的優勢又+1了。

比如讓它寫個類似 Slack或 Teams的聊天應用，它能一口氣敲出大約1.1萬行代碼。相比之下，之前的 Claude Opus4和 Codex，最多也就能獨立工作七小時。

用 Anthropic的話來說，Claude Sonnet4.5現在就是全球最強編程模型——構建複雜智能體、操作電腦、推理和數學，各項能力都狠狠提升了一波。

比方說，在 OSWorld這個專門測試真實計算機任務的基準里，它拿下了61.4%的成績，直接第一。要知道，四個月前 Sonnet4還以42.2%的成績遙遙領先，這才多久性能就又往上抬了一大截。

而 Anthropic的 Claude Chrome插件甚至能直接在瀏覽器里自己導航網站、填表格、處理任務，像個真人在操作似的。推理、金融這些測評項目上也都更強了，各項指標都在往上漲。

有了這麼強的能力，Anthropic這次自然不會只發個模型就完事。

具體來看：

Claude Code加了「檢查點」功能，能隨時保存進度，想回退到之前某個狀態一鍵搞定

終端界面翻新，還發布了原生 VS Code插件

Claude API增加了上下文編輯功能和記憶工具

代碼執行和文件創建現在直接整合到對話里

甚至，Anthropic把自己內部用來搭建 Claude Code的底層基礎設施也開放出來了，叫 Claude Agent SDK。

智能體怎麼在長時間任務里管理記憶、怎麼設計權限系統讓自主性和用戶控制找到平衡點、怎麼讓多個子智能體配合著完成目標，這些都是構建和設計 AI智能體的棘手問題。

而藉助 Claude Agent SDK，現在你也能拿去構建自己的產品。

今天起，開發者還可以通過 Claude API調用 claude-sonnet-4-5。定價還是跟 Claude Sonnet4一樣，每百萬 tokens$3/$15，價格沒變能力更強。

網友@vasumanmoza體驗完直接發帖：

「Claude4.5 Sonnet剛在一次調用里重構了我整個代碼庫，25次工具調用，新增3000多行代碼，生成了12個全新文件。它把所有東西都模塊化了，拆掉了巨石式結構，清理了義大利麵條式代碼。結果完全跑不通，但天啊真的很優雅。」這評價，屬於又愛又恨那種。

Cursor表示，在 Claude Sonnet4.5上看到了最前沿的編程性能，尤其處理長周期任務時提升明顯。這也再次說明為什麼很多 Cursor用戶會選 Claude來解決最複雜的問題。

知名測評博主 Dan Shipper則表示，新版 Sonnet4.5在使用體驗上響應速度更快，可控性更強，也更穩定。

性能強是一方面，安全性也得跟上。

據介紹，Claude Sonnet4.5也是 Anthropic到目前為止對齊度最高的前沿模型。

靠著 Claude更強的能力加上完善的安全訓練，Anthropic在模型行為上取得了顯著改進，減少了阿諛奉承、欺騙、權力追求、鼓勵妄想等行為。此外，Anthropic在防禦提示注入攻擊和減少內容誤判這塊也有了重大突破。

比較讓我感興趣的是，Anthropic還在 Claude Sonnet4.5發布的同時推出了個臨時研究預覽功能，叫「Imagine with Claude」。

在這個功能里，Claude會實時生成軟體，所有功能不是預設的，所有代碼也不是提前寫好的。你看到的一切都是 Claude跟你互動時當場創造和調整出來的。

不過，「Imagine with Claude」接下來五天內只會對 Max訂閱用戶開放。

附上傳送門 claude.ai/imagine。

毫無疑問，今年的 AI賽道依舊是卷編程的一年。

目前 Anthropic估值已經到了1830億美元，8月還實現了年化營收50億美元，但這其中相當一部分增長靠著來自編程軟體的普及。問題是，老對手 OpenAI和 Google Gemini也在瘋狂推類似工具搶程式設計師用戶。

甚至一周之後就是 OpenAI年度開發者大會，Anthropic這個時候搶先發布 Claude Sonnet4.5，時間卡得夠精準，明擺著就是要給對手上一波壓力。

此外，Anthropic聯合創始人兼首席科學官 Jared Kaplan還表示，更先進的 Opus模型，預計今年晚些時候推出：「Anthropic在大小模型的使用上都能占優勢。」

不過有一說一，Anthropic自己眼下也有麻煩要解決。

過去兩個月，Claude系列模型剛經歷了一場「降智」風波。用戶普遍反映模型推理、代碼、格式和工具調用質量斷崖式下滑，連付費的 Max用戶都沒能倖免。

雖然 Anthropic後來緊急回滾了 Opus4.1更新，還承認了兩個獨立 Bug，聲明「絕非為省成本故意降智」，但由於沒提供補償或退款，GitHub和 X等平台上還是出現了退訂潮，不少用戶直接轉投 Codex。

這次 Claude Sonnet4.5的發布，顯然就是 Anthropic想用實打實的性能提升來挽回流失的用戶。至於能不能成功，就看接下來幾周的實際表現了。

責任編輯：李華　來源：愛范兒轉載請註明作者、出處並保持完整。

本文網址：https://tw.aboluowang.com/2025/1001/2285089.html

AI

相關新聞