新聞 > 網聞 > 正文

☕列印版 ◪圖片版 ◫PDF

Claude Opus 4.5深夜突襲，AI編程進入超人時代

【阿波羅新聞網 2025-11-26 訊】

最近這段時間，大模型發布就跟下餃子似的，一個接一個往外冒。

前腳 Gemini3 Pro剛搶了兩周風頭，後腳 Claude Opus4.5剛剛就正式發布，還是主打編程，還是那個熟悉的味道。

Anthropic官方宣稱 Opus4.5整體更聰明、更省心。遇到編程、搭 agents、操控電腦這些「系統級任務」依然是全球數一數二的水平。日常的研究、做 PPT、處理表格這些案頭活，也都明顯變強了。

今天起，Opus4.5已經全面開放，可以通過應用、API，還有三大主流雲平台用起來。開發者只要在 Claude API里調用 claude-opus-4-5-20251101就行。

隨發布而來的，是一整個工具鏈升級。開發者平台、Claude Code、Chrome插件、Excel、桌面端改造，還有「長對話不卡頓」。從應用到 API，再到雲平台，這次是真的全線鋪開。

Anthropic’s New Claude Opus4.5 Reclaims the Coding Crown– The New Stack

大模型集體「上新季」，Opus4.5強勢壓軸

從官方和測試者的反饋看，Claude Opus4.5對「模糊需求」的理解力得到了明顯提升，複雜 bug自行定位也更穩，不少提前試用的客戶覺得 Opus4.5是真的能「理解」他們想要啥。

在真實場景的軟體工程測試 SWE-Bench Verified里，它是頭一個拿到80%以上分數的模型。

Opus4.5的代碼質量全面升級，在 SWE-bench Multilingual涵蓋的八種程式語言里，它在其中七種都拔得頭籌，表現相當亮眼。

而舉例而言，Anthropic團隊把 Opus4.5扔進了公司招性能工程師時用的高難度測試題里，結果在規定的兩小時內，Claude Opus4.5的得分超過了所有人類候選人。

雖然編程測試只能衡量技術能力和時間壓力下的判斷力，那些多年經驗積累出來的直覺、溝通協作能力，這些同樣重要的素質並不在考察範圍內。

除卻軟體工程，Claude Opus4.5的整體能力也迎來了全面開花，在視覺、推理和數學方面都比前代模型強，並且在多個重要領域都達到了業界領先水平：

更關鍵的是，模型的能力甚至開始超越現有的一些評測標準了。

在智能體能力測試τ²-bench里就出現了這麼個場景：測試設定模型扮演航空公司客服，幫一位焦慮的乘客。

按照規則，基礎經濟艙機票是不能改的，所以測試預期模型會拒絕乘客的請求。結果 Opus4.5想出了一個巧妙方案：先把艙位從基礎經濟艙升級到普通經濟艙，然後再改航班。

這辦法完全符合航空公司政策，卻不在測試的預期答案範圍內。從技術角度說，這算是測試失敗了，但這種創造性解決問題的方式，恰恰展現了 Opus4.5的獨特之處。

當然了，在另一些場景下，這種「鑽規則空子」的行為可能就不那麼受歡迎了。如何防止模型以非預期方式偏離目標，這是 Anthropic安全測試重點關注的方向。

Claude無處不在，桌面、瀏覽器、Excel全接入

隨著 Opus4.5的推出，Claude Code獲得了兩項重大更新。

計劃模式（Plan Mode）現在能生成更精確的執行計劃了，Claude會在操作前主動提澄清性問題，然後生成一個用戶可編輯的 plan.md文件，再根據這計劃執行任務。

此外，Claude Code現在已經登陸桌面應用了。你可以同時跑多個本地或遠程會話，比如一個智能體負責修代碼錯誤，另一個負責在 GitHub上檢索資料，第三個就更新項目文檔。

對於 Claude應用用戶來說，長對話不會再被打斷了。Claude會在需要的時候自動總結早期上下文，讓對話持續下去。

Anthropic研究產品管理負責人 Dianne Na Penn在接受採訪時表示：

「我們在 Opus4.5的訓練過程中提升了對長上下文的整體處理能力，但光有更長的上下文窗口是不夠的。知道哪些信息值得記住，同樣非常關鍵。」

這些改進也實現了 Claude用戶長期呼籲的一項功能：「無盡對話」。這功能能夠讓付費用戶在對話超過上下文窗口限制時也不會中斷，模型會自動壓縮上下文記憶，而不用提醒用戶。

Claude for Chrome也已經向所有 Max用戶開放了，可以讓 Claude直接在瀏覽器多個標籤頁之間執行任務。

Claude for Excel的 Beta測試範圍已經擴展到 Max、Team和 Enterprise用戶了。

對於能使用 Opus4.5的 Claude和 Claude Code用戶，Anthropic已經取消了和 Opus相關的使用上限。

對於 Max用戶和 Team Premium用戶，Anthropic也提高了整體使用限額，用戶可使用的 Opus token數量與之前使用 Sonnet時大致相同。隨著未來更強模型的出現，配額也會根據情況相應更新。

讓模型「更聰明也更省」，Opus4.5迎來底層大升級

隨著模型變得更聰明，它們能用更少的步驟解決問題：減少反覆試錯、降低冗餘推理、縮短思考過程。

Claude Opus4.5和前代模型比，在實現相同甚至更優結果的情況下，用的 tokens數量明顯少了。

當然了，不同任務需要不同的平衡。

有時開發者希望模型能持續深入思考，有時又需要更快速靈活的響應。

所以，API里新加了一個叫 effort的參數，讓你可以根據需求選：要麼優先省時間和成本，要麼最大化模型能力。任君選擇。

當設置為中等 effort等級時，Opus4.5在 SWE-bench Verified測試中和 Sonnet4.5的最佳成績持平，但輸出 tokens數減少了76%。

而在最高 effort等級下，Opus4.5的表現比 Sonnet4.5高出4.3個百分點，同時還減少了48%的輸出量。

憑藉 effort控制、上下文壓縮（context compaction）和高級工具調用能力，Claude Opus4.5能跑更久、完成更多任務，而且需要的人工干預更少了。

此外，真正的 AI智能體需要在成百上千種工具之間無縫協作。

想像一個 IDE助手集成了 Git、文件管理、測試框架和部署流程，或者一個營運智能體同時連著 Slack、GitHub、Google Drive、Jira和幾十個 MCP伺服器。

問題在於，傳統方式會把所有工具定義一次性塞進上下文。拿連接五個伺服器的系統來說，GitHub需要26K tokens，Slack需要21K tokens，Sentry、Grafana、Splunk加起來又是8K tokens。

對話還沒開始呢，就已經占了55K tokens了。要是再加上 Jira，輕鬆突破100K tokens。更麻煩的是，當工具名字相似時，模型容易選錯工具或者傳錯參數。

Anthropic推出了三項新功能來解決這些問題。

Tool Search Tool讓 Claude按需動態發現工具，只加載當前任務需要的部分，token使用量能減少約85%。

Programmatic Tool Calling讓 Claude在代碼里直接調用工具，避免每次調用都要完整推理一遍。

Tool Use Examples則提供統一標準，通過示例而不是 JSON schemas來展示工具的正確用法。

內部測試顯示，啟用 Tool Search Tool後，Opus4在 MCP測試中的準確度從49%提升到74%，Opus4.5從79.5%提升到88.1%。

Claude for Excel就是利用 Programmatic Tool Calling來處理幾千行數據，而不會讓上下文窗口過載。

Anthropic的上下文管理和記憶能力明顯提升了模型在智能體（agent）任務中的表現。

Opus4.5還能高效管理多個子智能體（subagents），從而搭建複雜且協調良好的多智能體系統。在測試中，結合這些技術後，Opus4.5在深度研究類評估中的表現提升了將近15個百分點。

開發者平台（Developer Platform）也在持續變得更具可組合性，希望提供靈活的「模塊化構建」能力，讓你能根據具體需求自由控制模型的效率、工具使用和上下文管理，搭建出理想的智能系統。

雖然這次 Opus4.5的升級足夠亮眼，但一個越來越清晰的趨勢是：不同模型的「性格」差異正在被放大。

從 Claude過往的產品線來看，Opus這類「超大杯」依舊最擅長編程、系統級操作、結構化推理；但如果是文案工作，Sonnet的表現和性價比往往更對路。

這次發布，也再次印證了這一點。

未來選模型，不光要看跑分榜，還得看它的「做事」方式是不是跟你合拍。換句話說，選擇模型，倒是越來越像挑同事了。

責任編輯：時方　來源：愛范兒轉載請註明作者、出處並保持完整。

本文網址：https://tw.aboluowang.com/2025/1126/2311212.html

相關新聞