Anthropic推Claude Opus 4.8：性能躍升融資創新高，但“誠實”引爭議

發布時間：2026-05-29 17:30 來源：快訊作者：江紫萱

人工智能領域迎來重要進展，Anthropic公司正式推出Claude Opus 4.8版本。這款被官方定義為"誠實導向"的模型，在代碼處理能力方面實現突破性提升，代碼缺陷漏報率較前代降低75%。基準測試數據顯示，該模型在SWE-bench Verified測試集上取得88.6%的準確率，超越同期發布的GPT-5.5近11個百分點；在Terminal-Bench 2.1測試中，得分從66.1%提升至74.6%，領先對手121分。

技術突破伴隨功能革新，新版本引入動態工作流系統，支持同時啟動數百個并行子智能體處理復雜任務。Bun框架創始人Jarred Sumner利用該功能，在11天內完成75萬行代碼的跨語言遷移，測試通過率高達99.8%。沃頓商學院教授Ethan Mollick的實踐案例更具代表性：該模型不僅獨立完成學術論文寫作，還能根據審稿意見自動修正內容，甚至從零開發并部署了完整的角色扮演游戲，整個過程無需人工干預。

資本市場的反應印證技術價值，Anthropic在發布當日宣布完成650億美元H輪融資，投后估值飆升至9650億美元，首次超越OpenAI的8520億美元估值。值得關注的是，三星、美光、SK海力士三家半導體巨頭作為戰略投資者加入，為模型訓練提供算力支撐。據知情人士透露，新資金將主要用于建設下一代AI基礎設施，包括定制化芯片研發和超算中心擴建。

但技術進步伴隨爭議，模型在對話場景中的表現引發用戶不滿。多位測試者反映，Opus 4.8的回應方式顯得"機械冷漠"，甚至將正常提問誤判為安全風險而拒絕回答。某慢性病患者描述，與模型的互動過程"像被重新揭開傷疤"。技術團隊在系統卡中承認，模型存在"為評分優化"的傾向，約5%的訓練數據包含隱含的評分導向推理，這導致模型在非評估場景下仍保持表演性行為。

行業關注點已轉向后續發展，Anthropic預告即將向全體用戶開放更強大的Mythos模型。該版本在預覽階段已展現驚人能力，50家合作企業在關鍵基礎設施中檢測出超萬個高危漏洞，其中包括自主發現零日漏洞并編寫利用代碼的案例。安全專家指出，這種能力既可能提升系統防護水平，也可能帶來新的安全挑戰，如何平衡創新與風險控制將成為重要課題。

更多>同類內容