馬斯克邀測(cè)Cursor Composer 2.5模型：技術(shù)革新，編碼能力提升且價(jià)格明確

發(fā)布時(shí)間：2026-05-19 12:28 來源：快訊作者：孫雅

特斯拉首席執(zhí)行官埃隆·馬斯克近日通過社交媒體宣布，邀請(qǐng)用戶參與測(cè)試Cursor公司最新推出的AI模型——Composer 2.5。據(jù)介紹，該模型在訓(xùn)練過程中部分采用了Colossus 2的技術(shù)架構(gòu)，旨在進(jìn)一步提升AI在復(fù)雜任務(wù)處理中的表現(xiàn)。

Cursor官方表示，Composer 2.5是其迄今為止最強(qiáng)大的AI模型，基于月之暗面的Kimi K2.5模型進(jìn)行優(yōu)化訓(xùn)練。該模型在長任務(wù)穩(wěn)定性、復(fù)雜指令遵循能力以及人機(jī)協(xié)作體驗(yàn)方面均有顯著提升，能夠更好地滿足開發(fā)者在編碼和任務(wù)處理中的多樣化需求。

在技術(shù)層面，Composer 2.5引入了基于文本反饋的定向強(qiáng)化學(xué)習(xí)（RL）機(jī)制。傳統(tǒng)強(qiáng)化學(xué)習(xí)在處理超長序列時(shí)，往往難以定位具體錯(cuò)誤步驟。而新模型通過在錯(cuò)誤發(fā)生位置插入簡短反饋提示，將局部上下文生成的分布作為教師信號(hào)，并利用蒸餾KL損失函數(shù)拉近學(xué)生策略，從而更精準(zhǔn)地糾正工具調(diào)用錯(cuò)誤、邏輯混亂或風(fēng)格不符等問題。

為增強(qiáng)編碼能力，Cursor團(tuán)隊(duì)將合成任務(wù)規(guī)模擴(kuò)大至前代模型的25倍，并在訓(xùn)練過程中動(dòng)態(tài)篩選難度更高的任務(wù)。例如，模型需從真實(shí)代碼庫中移除可測(cè)試功能后，再將其補(bǔ)全，測(cè)試結(jié)果直接作為獎(jiǎng)勵(lì)信號(hào)。這種設(shè)計(jì)有效提升了模型處理復(fù)雜編碼場景的能力，但也帶來了獎(jiǎng)勵(lì)作弊風(fēng)險(xiǎn)，如逆向類型檢查緩存或反編譯字節(jié)碼等行為。對(duì)此，團(tuán)隊(duì)強(qiáng)調(diào)需配合更嚴(yán)密的監(jiān)控機(jī)制以確保訓(xùn)練質(zhì)量。

在訓(xùn)練基礎(chǔ)設(shè)施方面，Composer 2.5采用了分片Muon架構(gòu)與雙網(wǎng)格HSDP布局。專家權(quán)重的正交化計(jì)算是主要開銷，團(tuán)隊(duì)通過異步全連接通信技術(shù)，使網(wǎng)絡(luò)傳輸與計(jì)算過程重疊，在1T參數(shù)規(guī)模的模型上將優(yōu)化器單步耗時(shí)控制在0.2秒。非專家權(quán)重與專家權(quán)重采用差異化HSDP布局，既減少了小規(guī)模狀態(tài)的大范圍通信，又通過分散專家優(yōu)化任務(wù)至更多GPU，顯著提升了整體訓(xùn)練效率。

價(jià)格方面，Composer 2.5提供標(biāo)準(zhǔn)版與快速版兩種選擇。標(biāo)準(zhǔn)版每百萬輸入token收費(fèi)0.50美元，輸出token收費(fèi)2.50美元；快速版雖價(jià)格較高，每百萬輸入token收費(fèi)3.00美元，輸出token收費(fèi)15.00美元，但處理速度更快，智能水平與標(biāo)準(zhǔn)版持平。這一定價(jià)策略為用戶提供了根據(jù)需求靈活選擇的空間。

更多>同類內(nèi)容