新聞 > 網聞 > 正文

Claude Opus 4.5深夜突襲,AI編程進入超人時代

最近這段時間,大模型發布就跟下餃子似的,一個接一個往外冒。

前腳 Gemini3 Pro剛搶了兩周風頭,後腳 Claude Opus4.5剛剛就正式發布,還是主打編程,還是那個熟悉的味道。

Anthropic官方宣稱 Opus4.5整體更聰明、更省心。遇到編程、搭 agents、操控電腦這些「系統級任務」依然是全球數一數二的水平。日常的研究、做 PPT、處理表格這些案頭活,也都明顯變強了。

今天起,Opus4.5已經全面開放,可以通過應用、API,還有三大主流雲平台用起來。開發者只要在 Claude API里調用 claude-opus-4-5-20251101就行。

隨發布而來的,是一整個工具鏈升級。開發者平台、Claude Code、Chrome插件、Excel、桌面端改造,還有「長對話不卡頓」。從應用到 API,再到雲平台,這次是真的全線鋪開。

Anthropic’s New Claude Opus4.5 Reclaims the Coding Crown– The New Stack

大模型集體「上新季」,Opus4.5強勢壓軸

從官方和測試者的反饋看,Claude Opus4.5對「模糊需求」的理解力得到了明顯提升,複雜 bug自行定位也更穩,不少提前試用的客戶覺得 Opus4.5是真的能「理解」他們想要啥。

在真實場景的軟體工程測試 SWE-Bench Verified里,它是頭一個拿到80%以上分數的模型。

Opus4.5的代碼質量全面升級,在 SWE-bench Multilingual涵蓋的八種程式語言里,它在其中七種都拔得頭籌,表現相當亮眼。

而舉例而言,Anthropic團隊把 Opus4.5扔進了公司招性能工程師時用的高難度測試題里,結果在規定的兩小時內,Claude Opus4.5的得分超過了所有人類候選人。

雖然編程測試只能衡量技術能力和時間壓力下的判斷力,那些多年經驗積累出來的直覺、溝通協作能力,這些同樣重要的素質並不在考察範圍內。

除卻軟體工程,Claude Opus4.5的整體能力也迎來了全面開花,在視覺、推理和數學方面都比前代模型強,並且在多個重要領域都達到了業界領先水平:

更關鍵的是,模型的能力甚至開始超越現有的一些評測標準了。

在智能體能力測試τ²-bench里就出現了這麼個場景:測試設定模型扮演航空公司客服,幫一位焦慮的乘客。

按照規則,基礎經濟艙機票是不能改的,所以測試預期模型會拒絕乘客的請求。結果 Opus4.5想出了一個巧妙方案:先把艙位從基礎經濟艙升級到普通經濟艙,然後再改航班。

這辦法完全符合航空公司政策,卻不在測試的預期答案範圍內。從技術角度說,這算是測試失敗了,但這種創造性解決問題的方式,恰恰展現了 Opus4.5的獨特之處。

當然了,在另一些場景下,這種「鑽規則空子」的行為可能就不那麼受歡迎了。如何防止模型以非預期方式偏離目標,這是 Anthropic安全測試重點關注的方向。

Claude無處不在,桌面、瀏覽器、Excel全接入

隨著 Opus4.5的推出,Claude Code獲得了兩項重大更新。

計劃模式(Plan Mode)現在能生成更精確的執行計劃了,Claude會在操作前主動提澄清性問題,然後生成一個用戶可編輯的 plan.md文件,再根據這計劃執行任務。

此外,Claude Code現在已經登陸桌面應用了。你可以同時跑多個本地或遠程會話,比如一個智能體負責修代碼錯誤,另一個負責在 GitHub上檢索資料,第三個就更新項目文檔。

對於 Claude應用用戶來說,長對話不會再被打斷了。Claude會在需要的時候自動總結早期上下文,讓對話持續下去。

Anthropic研究產品管理負責人 Dianne Na Penn在接受採訪時表示:

「我們在 Opus4.5的訓練過程中提升了對長上下文的整體處理能力,但光有更長的上下文窗口是不夠的。知道哪些信息值得記住,同樣非常關鍵。」

這些改進也實現了 Claude用戶長期呼籲的一項功能:「無盡對話」。這功能能夠讓付費用戶在對話超過上下文窗口限制時也不會中斷,模型會自動壓縮上下文記憶,而不用提醒用戶。

Claude for Chrome也已經向所有 Max用戶開放了,可以讓 Claude直接在瀏覽器多個標籤頁之間執行任務。

Claude for Excel的 Beta測試範圍已經擴展到 Max、Team和 Enterprise用戶了。

對於能使用 Opus4.5的 Claude和 Claude Code用戶,Anthropic已經取消了和 Opus相關的使用上限。

對於 Max用戶和 Team Premium用戶,Anthropic也提高了整體使用限額,用戶可使用的 Opus token數量與之前使用 Sonnet時大致相同。隨著未來更強模型的出現,配額也會根據情況相應更新。

讓模型「更聰明也更省」,Opus4.5迎來底層大升級

隨著模型變得更聰明,它們能用更少的步驟解決問題:減少反覆試錯、降低冗餘推理、縮短思考過程。

Claude Opus4.5和前代模型比,在實現相同甚至更優結果的情況下,用的 tokens數量明顯少了。

當然了,不同任務需要不同的平衡。

有時開發者希望模型能持續深入思考,有時又需要更快速靈活的響應。

所以,API里新加了一個叫 effort的參數,讓你可以根據需求選:要麼優先省時間和成本,要麼最大化模型能力。任君選擇。

當設置為中等 effort等級時,Opus4.5在 SWE-bench Verified測試中和 Sonnet4.5的最佳成績持平,但輸出 tokens數減少了76%。

而在最高 effort等級下,Opus4.5的表現比 Sonnet4.5高出4.3個百分點,同時還減少了48%的輸出量。

憑藉 effort控制、上下文壓縮(context compaction)和高級工具調用能力,Claude Opus4.5能跑更久、完成更多任務,而且需要的人工干預更少了。

此外,真正的 AI智能體需要在成百上千種工具之間無縫協作。

想像一個 IDE助手集成了 Git、文件管理、測試框架和部署流程,或者一個營運智能體同時連著 Slack、GitHub、Google Drive、Jira和幾十個 MCP伺服器。

問題在於,傳統方式會把所有工具定義一次性塞進上下文。拿連接五個伺服器的系統來說,GitHub需要26K tokens,Slack需要21K tokens,Sentry、Grafana、Splunk加起來又是8K tokens。

對話還沒開始呢,就已經占了55K tokens了。要是再加上 Jira,輕鬆突破100K tokens。更麻煩的是,當工具名字相似時,模型容易選錯工具或者傳錯參數。

Anthropic推出了三項新功能來解決這些問題。

Tool Search Tool讓 Claude按需動態發現工具,只加載當前任務需要的部分,token使用量能減少約85%。

Programmatic Tool Calling讓 Claude在代碼里直接調用工具,避免每次調用都要完整推理一遍。

Tool Use Examples則提供統一標準,通過示例而不是 JSON schemas來展示工具的正確用法。

內部測試顯示,啟用 Tool Search Tool後,Opus4在 MCP測試中的準確度從49%提升到74%,Opus4.5從79.5%提升到88.1%。

Claude for Excel就是利用 Programmatic Tool Calling來處理幾千行數據,而不會讓上下文窗口過載。

Anthropic的上下文管理和記憶能力明顯提升了模型在智能體(agent)任務中的表現。

Opus4.5還能高效管理多個子智能體(subagents),從而搭建複雜且協調良好的多智能體系統。在測試中,結合這些技術後,Opus4.5在深度研究類評估中的表現提升了將近15個百分點。

開發者平台(Developer Platform)也在持續變得更具可組合性,希望提供靈活的「模塊化構建」能力,讓你能根據具體需求自由控制模型的效率、工具使用和上下文管理,搭建出理想的智能系統。

雖然這次 Opus4.5的升級足夠亮眼,但一個越來越清晰的趨勢是:不同模型的「性格」差異正在被放大。

從 Claude過往的產品線來看,Opus這類「超大杯」依舊最擅長編程、系統級操作、結構化推理;但如果是文案工作,Sonnet的表現和性價比往往更對路。

這次發布,也再次印證了這一點。

未來選模型,不光要看跑分榜,還得看它的「做事」方式是不是跟你合拍。換句話說,選擇模型,倒是越來越像挑同事了。

責任編輯: 時方  來源:愛范兒 轉載請註明作者、出處並保持完整。

本文網址:https://tw.aboluowang.com/2025/1126/2311212.html