深夜發布!Claude Opus 4.5編程能力登頂,AI圈格局迎來新變革

   時間:2025-11-26 15:09 來源:快訊作者:新智元

人工智能領域迎來重大突破,Anthropic公司深夜發布全新模型Claude Opus 4.5,憑借其卓越的編程能力迅速登頂全球編碼王座。這款模型不僅在編程性能上實現質的飛躍,更在智能體協作和計算機操作方面展現出前所未有的實力,標志著AI技術進入全新發展階段。

基準測試數據顯示,Opus 4.5在SWE-bench Verified測試中取得80.9%的準確率,刷新世界紀錄。該模型在ARC-AGI-2評估中以64k版本獲得37.6%的高分,在編碼、工具調用和計算機使用等核心指標上全面超越Gemini 3 Pro和GPT-5.1。更令人矚目的是,在真實場景的軟件工程測試中,Opus 4.5的表現甚至超過經驗豐富的人類工程師,在Anthropic的遠程測試中得分超越所有歷史人類候選人。

這款模型的核心優勢在于其自主處理復雜問題的能力。面對多系統漏洞時,Opus 4.5能夠自動分析模糊信息,權衡不同解決方案的利弊。在模擬航空公司客服場景中,當客戶要求修改不可更改的基本經濟艙預訂時,模型創造性地提出"先升級艙位再修改航班"的合規方案,展現出超越傳統AI的邏輯推理能力。這種突破性表現使測試者普遍認為Opus 4.5已達到"專家級"水準。

技術架構方面,Opus 4.5引入三大創新工具:工具搜索工具、程序化工具調用和工具使用示例。工具搜索工具通過按需加載機制,將上下文消耗減少85%,使模型能同時處理數千個工具而不受token限制。程序化工具調用允許模型編寫Python腳本編排工作流程,在預算合規性測試中,該技術將中間結果消耗從200KB壓縮至1KB,準確率提升23%。工具使用示例功能則通過提供具體調用案例,使復雜參數處理準確率從72%躍升至90%。

實際應用層面,Claude開發者平臺迎來重大升級。Opus 4.5支持多智能體協同工作,用戶可同時運行多個本地或遠程會話,實現修bug、查資料、更新文檔等并行操作。Claude for Chrome現已向所有Max用戶開放,Excel工具測試權限擴展至企業級用戶。針對開發者最關心的成本問題,Anthropic宣布通過投入度控制參數,在保持性能的同時將token消耗降低48%-76%,總使用上限提升至與Sonnet 4.5相當的水平。

安全性能方面,系統卡評估顯示Opus 4.5是Anthropic迄今最穩健、對齊程度最高的模型。在抵御提示詞注入攻擊測試中,該模型展現出顯著優勢,面對高強度欺騙指令時仍能保持正確響應。這些特性使其成為首個通過多項安全認證的企業級AI解決方案,為金融、醫療等敏感領域的應用鋪平道路。

行業分析師指出,Opus 4.5的發布不僅重塑了AI技術競爭格局,更預示著軟件開發模式的根本性變革。其自主解決問題能力和多智能體協作框架,正在推動AI從輔助工具向獨立工作伙伴演進。隨著Claude Code等配套產品的完善,未來開發者的工作方式可能發生顛覆性改變,代碼生產效率有望實現數倍提升。

 
 
更多>同類天脈資訊
全站最新
熱門內容
媒體信息
新傳播周刊
新傳播,傳播新經濟之聲!
網站首頁  |  關于我們  |  聯系方式  |  版權隱私  |  RSS訂閱  |  違規舉報 魯公網安備37010202700497號