新聞 > 科教 > 正文

能連干30多個小時,史上最卷AI誕生

論卷編程,還得看 Claude。

就在剛剛,Anthropic正式發布 Claude Sonnet4.5。

先說 Claude Sonnet4.5交出的成績單,在考察真實編程水平的 SWE-bench Verified測試里,Claude Sonnet4.5直接登頂業界第一。

更離譜的是,它能連續專注幹活超過30小時。

好好好,AI取代人類的優勢又+1了。

比如讓它寫個類似 Slack或 Teams的聊天應用,它能一口氣敲出大約1.1萬行代碼。相比之下,之前的 Claude Opus4和 Codex,最多也就能獨立工作七小時。

用 Anthropic的話來說,Claude Sonnet4.5現在就是全球最強編程模型——構建複雜智能體、操作電腦、推理和數學,各項能力都狠狠提升了一波。

比方說,在 OSWorld這個專門測試真實計算機任務的基準里,它拿下了61.4%的成績,直接第一。要知道,四個月前 Sonnet4還以42.2%的成績遙遙領先,這才多久性能就又往上抬了一大截。

而 Anthropic的 Claude Chrome插件甚至能直接在瀏覽器里自己導航網站、填表格、處理任務,像個真人在操作似的。推理、金融這些測評項目上也都更強了,各項指標都在往上漲。

有了這麼強的能力,Anthropic這次自然不會只發個模型就完事。

具體來看:

Claude Code加了「檢查點」功能,能隨時保存進度,想回退到之前某個狀態一鍵搞定

終端界面翻新,還發布了原生 VS Code插件

Claude API增加了上下文編輯功能和記憶工具

代碼執行和文件創建現在直接整合到對話里

甚至,Anthropic把自己內部用來搭建 Claude Code的底層基礎設施也開放出來了,叫 Claude Agent SDK。

智能體怎麼在長時間任務里管理記憶、怎麼設計權限系統讓自主性和用戶控制找到平衡點、怎麼讓多個子智能體配合著完成目標,這些都是構建和設計 AI智能體的棘手問題。

而藉助 Claude Agent SDK,現在你也能拿去構建自己的產品。

今天起,開發者還可以通過 Claude API調用 claude-sonnet-4-5。定價還是跟 Claude Sonnet4一樣,每百萬 tokens$3/$15,價格沒變能力更強。

網友@vasumanmoza體驗完直接發帖:

「Claude4.5 Sonnet剛在一次調用里重構了我整個代碼庫,25次工具調用,新增3000多行代碼,生成了12個全新文件。它把所有東西都模塊化了,拆掉了巨石式結構,清理了義大利麵條式代碼。結果完全跑不通,但天啊真的很優雅。」這評價,屬於又愛又恨那種。

Cursor表示,在 Claude Sonnet4.5上看到了最前沿的編程性能,尤其處理長周期任務時提升明顯。這也再次說明為什麼很多 Cursor用戶會選 Claude來解決最複雜的問題。

知名測評博主 Dan Shipper則表示,新版 Sonnet4.5在使用體驗上響應速度更快,可控性更強,也更穩定。

性能強是一方面,安全性也得跟上。

據介紹,Claude Sonnet4.5也是 Anthropic到目前為止對齊度最高的前沿模型。

靠著 Claude更強的能力加上完善的安全訓練,Anthropic在模型行為上取得了顯著改進,減少了阿諛奉承、欺騙、權力追求、鼓勵妄想等行為。此外,Anthropic在防禦提示注入攻擊和減少內容誤判這塊也有了重大突破。

比較讓我感興趣的是,Anthropic還在 Claude Sonnet4.5發布的同時推出了個臨時研究預覽功能,叫「Imagine with Claude」。

在這個功能里,Claude會實時生成軟體,所有功能不是預設的,所有代碼也不是提前寫好的。你看到的一切都是 Claude跟你互動時當場創造和調整出來的。

不過,「Imagine with Claude」接下來五天內只會對 Max訂閱用戶開放。

附上傳送門 claude.ai/imagine。

毫無疑問,今年的 AI賽道依舊是卷編程的一年。

目前 Anthropic估值已經到了1830億美元,8月還實現了年化營收50億美元,但這其中相當一部分增長靠著來自編程軟體的普及。問題是,老對手 OpenAI和 Google Gemini也在瘋狂推類似工具搶程式設計師用戶。

甚至一周之後就是 OpenAI年度開發者大會,Anthropic這個時候搶先發布 Claude Sonnet4.5,時間卡得夠精準,明擺著就是要給對手上一波壓力。

此外,Anthropic聯合創始人兼首席科學官 Jared Kaplan還表示,更先進的 Opus模型,預計今年晚些時候推出:「Anthropic在大小模型的使用上都能占優勢。」

不過有一說一,Anthropic自己眼下也有麻煩要解決。

過去兩個月,Claude系列模型剛經歷了一場「降智」風波。用戶普遍反映模型推理、代碼、格式和工具調用質量斷崖式下滑,連付費的 Max用戶都沒能倖免。

雖然 Anthropic後來緊急回滾了 Opus4.1更新,還承認了兩個獨立 Bug,聲明「絕非為省成本故意降智」,但由於沒提供補償或退款,GitHub和 X等平台上還是出現了退訂潮,不少用戶直接轉投 Codex。

這次 Claude Sonnet4.5的發布,顯然就是 Anthropic想用實打實的性能提升來挽回流失的用戶。至於能不能成功,就看接下來幾周的實際表現了。

責任編輯: 李華  來源:愛范兒 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2025/1001/2285089.html