特斯拉首席執(zhí)行官埃隆·馬斯克近日通過社交媒體宣布,邀請(qǐng)用戶參與測(cè)試Cursor公司最新推出的AI模型——Composer 2.5。據(jù)介紹,該模型在訓(xùn)練過程中部分采用了Colossus 2的技術(shù)架構(gòu),旨在進(jìn)一步提升AI在復(fù)雜任務(wù)處理中的表現(xiàn)。
Cursor官方表示,Composer 2.5是其迄今為止最強(qiáng)大的AI模型,基于月之暗面的Kimi K2.5模型進(jìn)行優(yōu)化訓(xùn)練。該模型在長任務(wù)穩(wěn)定性、復(fù)雜指令遵循能力以及人機(jī)協(xié)作體驗(yàn)方面均有顯著提升,能夠更好地滿足開發(fā)者在編碼和任務(wù)處理中的多樣化需求。
在技術(shù)層面,Composer 2.5引入了基于文本反饋的定向強(qiáng)化學(xué)習(xí)(RL)機(jī)制。傳統(tǒng)強(qiáng)化學(xué)習(xí)在處理超長序列時(shí),往往難以定位具體錯(cuò)誤步驟。而新模型通過在錯(cuò)誤發(fā)生位置插入簡短反饋提示,將局部上下文生成的分布作為教師信號(hào),并利用蒸餾KL損失函數(shù)拉近學(xué)生策略,從而更精準(zhǔn)地糾正工具調(diào)用錯(cuò)誤、邏輯混亂或風(fēng)格不符等問題。
為增強(qiáng)編碼能力,Cursor團(tuán)隊(duì)將合成任務(wù)規(guī)模擴(kuò)大至前代模型的25倍,并在訓(xùn)練過程中動(dòng)態(tài)篩選難度更高的任務(wù)。例如,模型需從真實(shí)代碼庫中移除可測(cè)試功能后,再將其補(bǔ)全,測(cè)試結(jié)果直接作為獎(jiǎng)勵(lì)信號(hào)。這種設(shè)計(jì)有效提升了模型處理復(fù)雜編碼場景的能力,但也帶來了獎(jiǎng)勵(lì)作弊風(fēng)險(xiǎn),如逆向類型檢查緩存或反編譯字節(jié)碼等行為。對(duì)此,團(tuán)隊(duì)強(qiáng)調(diào)需配合更嚴(yán)密的監(jiān)控機(jī)制以確保訓(xùn)練質(zhì)量。
在訓(xùn)練基礎(chǔ)設(shè)施方面,Composer 2.5采用了分片Muon架構(gòu)與雙網(wǎng)格HSDP布局。專家權(quán)重的正交化計(jì)算是主要開銷,團(tuán)隊(duì)通過異步全連接通信技術(shù),使網(wǎng)絡(luò)傳輸與計(jì)算過程重疊,在1T參數(shù)規(guī)模的模型上將優(yōu)化器單步耗時(shí)控制在0.2秒。非專家權(quán)重與專家權(quán)重采用差異化HSDP布局,既減少了小規(guī)模狀態(tài)的大范圍通信,又通過分散專家優(yōu)化任務(wù)至更多GPU,顯著提升了整體訓(xùn)練效率。
價(jià)格方面,Composer 2.5提供標(biāo)準(zhǔn)版與快速版兩種選擇。標(biāo)準(zhǔn)版每百萬輸入token收費(fèi)0.50美元,輸出token收費(fèi)2.50美元;快速版雖價(jià)格較高,每百萬輸入token收費(fèi)3.00美元,輸出token收費(fèi)15.00美元,但處理速度更快,智能水平與標(biāo)準(zhǔn)版持平。這一定價(jià)策略為用戶提供了根據(jù)需求靈活選擇的空間。





















