時事快聞

深夜發布！Claude Opus 4.5編程能力登頂，AI圈格局迎來新變革

時間：2025-11-26 15:09 來源：快訊作者：新智元

人工智能領域迎來重大突破，Anthropic公司深夜發布全新模型Claude Opus 4.5，憑借其卓越的編程能力迅速登頂全球編碼王座。這款模型不僅在編程性能上實現質的飛躍，更在智能體協作和計算機操作方面展現出前所未有的實力，標志著AI技術進入全新發展階段。

基準測試數據顯示，Opus 4.5在SWE-bench Verified測試中取得80.9%的準確率，刷新世界紀錄。該模型在ARC-AGI-2評估中以64k版本獲得37.6%的高分，在編碼、工具調用和計算機使用等核心指標上全面超越Gemini 3 Pro和GPT-5.1。更令人矚目的是，在真實場景的軟件工程測試中，Opus 4.5的表現甚至超過經驗豐富的人類工程師，在Anthropic的遠程測試中得分超越所有歷史人類候選人。

這款模型的核心優勢在于其自主處理復雜問題的能力。面對多系統漏洞時，Opus 4.5能夠自動分析模糊信息，權衡不同解決方案的利弊。在模擬航空公司客服場景中，當客戶要求修改不可更改的基本經濟艙預訂時，模型創造性地提出"先升級艙位再修改航班"的合規方案，展現出超越傳統AI的邏輯推理能力。這種突破性表現使測試者普遍認為Opus 4.5已達到"專家級"水準。

技術架構方面，Opus 4.5引入三大創新工具：工具搜索工具、程序化工具調用和工具使用示例。工具搜索工具通過按需加載機制，將上下文消耗減少85%，使模型能同時處理數千個工具而不受token限制。程序化工具調用允許模型編寫Python腳本編排工作流程，在預算合規性測試中，該技術將中間結果消耗從200KB壓縮至1KB，準確率提升23%。工具使用示例功能則通過提供具體調用案例，使復雜參數處理準確率從72%躍升至90%。

實際應用層面，Claude開發者平臺迎來重大升級。Opus 4.5支持多智能體協同工作，用戶可同時運行多個本地或遠程會話，實現修bug、查資料、更新文檔等并行操作。Claude for Chrome現已向所有Max用戶開放，Excel工具測試權限擴展至企業級用戶。針對開發者最關心的成本問題，Anthropic宣布通過投入度控制參數，在保持性能的同時將token消耗降低48%-76%，總使用上限提升至與Sonnet 4.5相當的水平。

安全性能方面，系統卡評估顯示Opus 4.5是Anthropic迄今最穩健、對齊程度最高的模型。在抵御提示詞注入攻擊測試中，該模型展現出顯著優勢，面對高強度欺騙指令時仍能保持正確響應。這些特性使其成為首個通過多項安全認證的企業級AI解決方案，為金融、醫療等敏感領域的應用鋪平道路。

行業分析師指出，Opus 4.5的發布不僅重塑了AI技術競爭格局，更預示著軟件開發模式的根本性變革。其自主解決問題能力和多智能體協作框架，正在推動AI從輔助工具向獨立工作伙伴演進。隨著Claude Code等配套產品的完善，未來開發者的工作方式可能發生顛覆性改變，代碼生產效率有望實現數倍提升。

更多>同類天脈資訊

中恒電氣2025年研發投入1.71億增7.11% 研發人員653人業績穩健增長

04-22

光大同創2025年營收增30.29% 研發投入微降輕量化新材料布局顯成效

04-22

庫克卸任蘋果CEO留下市值神話，奧爾特曼等致敬，特努斯接棒迎挑戰

蘋果與OpenAI首次合作是在2024年，當時蘋果宣布將ChatGPT集成到蘋果語音助手Siri和蘋果的寫作工具。財富管理公司B.RILEY首席市場策略師Art Hogan表示：“如果業績糟糕，庫克絕不會離…

04-22