在AI編程能力評測領域,第三方大模型盲測平臺LMArena旗下的Code Arena榜單更新引發關注。阿里最新旗艦模型Qwen3.7-Max以1541分的成績躋身全球第二,成為唯一突破1540分的中國大模型,標志著中國在代碼生成與理解領域的技術實力已躋身世界前列。
與傳統代碼基準測試不同,Code Arena的評測機制更具挑戰性。該榜單由全球開發者自主命題,要求參評模型從零構建完整的可交互Web應用,再通過用戶對匿名模型生成結果的盲測投票綜合評分。這種"實戰化"的評測方式,更貼近真實開發場景,對模型的代碼生成質量、邏輯完整性和用戶體驗提出了更高要求。
作為面向智能體(Agent)場景優化的模型,Qwen3.7-Max在編程能力上實現了突破性提升。其核心優勢在于能夠獨立完成復雜項目的端到端交付,支持長達35小時的持續運行,并可處理累計超過1000次工具調用的復雜長程任務。這種能力使其在自動化開發、智能系統構建等場景中展現出顯著優勢。
此次排名不僅驗證了Qwen3.7-Max在代碼生成領域的領先地位,更凸顯了中國大模型在應對實際工程挑戰時的技術積累。隨著AI技術向專業化、場景化方向發展,這類具備長程任務處理能力的模型將在工業自動化、智能軟件開發等領域發揮關鍵作用。





















