真实夫妻露脸自拍视频在线播放-亚洲精品乱码久久久久久蜜月-免费动漫成人av在线观看-中文字幕av三区三级爽-日韩熟女人妻一区二区-亚洲欧美乱日韩乱国产-一二三四区中文字幕在线-国产美女香蕉久久精品-久久视频在线播放视频

阿里巴巴研究揭示:AI訓(xùn)練中極少數(shù)關(guān)鍵位置驅(qū)動(dòng)模型性能躍升

   時(shí)間:2026-04-03 12:07 來源:快訊作者:陳麗

阿里巴巴集團(tuán)Qwen Pilot團(tuán)隊(duì)在強(qiáng)化學(xué)習(xí)領(lǐng)域取得突破性進(jìn)展,其最新研究顛覆了傳統(tǒng)對(duì)AI模型訓(xùn)練的認(rèn)知。這項(xiàng)發(fā)表于國際學(xué)習(xí)表征會(huì)議(ICLR)的研究表明,大語言模型在強(qiáng)化學(xué)習(xí)訓(xùn)練過程中,超過98%的詞匯選擇幾乎保持不變,真正推動(dòng)性能提升的改變集中在不足2%的關(guān)鍵位置。這一發(fā)現(xiàn)猶如解開優(yōu)秀學(xué)生成績(jī)飛躍的密碼——并非依靠海量練習(xí),而是通過少數(shù)關(guān)鍵題目的突破性理解實(shí)現(xiàn)質(zhì)的飛躍。

研究團(tuán)隊(duì)通過Jensen-Shannon散度這一數(shù)學(xué)工具,對(duì)模型訓(xùn)練前后的詞匯選擇變化進(jìn)行精密測(cè)量。數(shù)據(jù)顯示,在使用可驗(yàn)證獎(jiǎng)勵(lì)的SimpleRL訓(xùn)練方法時(shí),僅有1.7%的詞匯位置發(fā)生顯著變化;即便采用約束較少的DAPO方法,變化比例也未超過17%。這些關(guān)鍵位置呈現(xiàn)出明顯的位置偏好:序列開頭的改變對(duì)應(yīng)高層次決策修正,如同調(diào)整文章整體框架;結(jié)尾的優(yōu)化則聚焦答案格式規(guī)范,類似完善結(jié)論表述。不同訓(xùn)練方法在變化模式上差異顯著,約束嚴(yán)格的策略將更新集中在極少數(shù)位置,而寬松方法則產(chǎn)生更廣泛但強(qiáng)度較低的調(diào)整。

深入分析發(fā)現(xiàn),模型變化程度與預(yù)測(cè)不確定性存在強(qiáng)關(guān)聯(lián)。在原本就確定該選什么詞匯的低熵位置,強(qiáng)化學(xué)習(xí)幾乎不進(jìn)行干預(yù);而在模型拿不準(zhǔn)的高熵區(qū)域,修正概率顯著提升。DAPO方法展現(xiàn)出獨(dú)特能力,甚至能重塑模型原本確定但錯(cuò)誤的預(yù)測(cè),這種特性使其在訓(xùn)練中表現(xiàn)出更強(qiáng)的探索性。相比之下,SimpleRL則像謹(jǐn)慎的修正者,專注于解決模型最不確定的問題。

詞匯類型分析揭示出更精細(xì)的優(yōu)化機(jī)制。高變化位置集中出現(xiàn)邏輯連接詞、數(shù)學(xué)表達(dá)式等推理相關(guān)術(shù)語,而數(shù)字、運(yùn)算符等結(jié)構(gòu)化組件則傾向于保持穩(wěn)定。但同一詞匯在不同語境中可能表現(xiàn)迥異——定冠詞"the"雖常出現(xiàn)在高變化詞匯列表,但其實(shí)際變化程度卻普遍較低。這表明決定詞匯是否改變的關(guān)鍵,在于其在特定推理軌跡中的功能角色,而非詞匯本身的語義屬性。

與傳統(tǒng)監(jiān)督學(xué)習(xí)形成鮮明對(duì)比的是,強(qiáng)化學(xué)習(xí)展現(xiàn)出獨(dú)特的優(yōu)化哲學(xué)。監(jiān)督微調(diào)如同嚴(yán)苛的教師,要求模型逐字模仿標(biāo)準(zhǔn)答案,導(dǎo)致更密集的詞匯變化;而強(qiáng)化學(xué)習(xí)更像智慧導(dǎo)師,僅在關(guān)鍵決策點(diǎn)給予指導(dǎo),允許模型保持個(gè)性化思維。實(shí)驗(yàn)數(shù)據(jù)顯示,監(jiān)督微調(diào)的散度分布強(qiáng)烈集中在高不確定性區(qū)域,而強(qiáng)化學(xué)習(xí)則表現(xiàn)出更大的靈活性,這種差異反映了兩種范式在標(biāo)準(zhǔn)化與個(gè)性化之間的本質(zhì)區(qū)別。

交叉采樣實(shí)驗(yàn)為理論提供了有力驗(yàn)證。研究人員將強(qiáng)化學(xué)習(xí)模型在關(guān)鍵位置的詞匯選擇"移植"到基礎(chǔ)模型,發(fā)現(xiàn)僅替換1.53%-4%的詞匯,就能使模型在數(shù)學(xué)推理任務(wù)中的準(zhǔn)確率提升2-3倍。更令人驚訝的是,這種混合策略在某些情況下甚至超越純強(qiáng)化學(xué)習(xí)模型的表現(xiàn)。反向?qū)嶒?yàn)則顯示,替換約5%的強(qiáng)化學(xué)習(xí)詞匯選擇,即可使其性能退化至基礎(chǔ)模型水平。這些結(jié)果證明,強(qiáng)化學(xué)習(xí)的優(yōu)勢(shì)高度集中在少數(shù)關(guān)鍵決策點(diǎn)。

性能變化呈現(xiàn)漸進(jìn)式特征,隨著關(guān)鍵詞匯注入次數(shù)的增加,準(zhǔn)確率呈現(xiàn)平滑上升趨勢(shì)。這種特性表明,強(qiáng)化學(xué)習(xí)并非引入全新推理行為,而是通過精細(xì)調(diào)整現(xiàn)有候選詞匯的排序,引導(dǎo)生成過程走向更有效的推理軌跡。研究顯示,約30%的強(qiáng)化學(xué)習(xí)首選詞匯在基礎(chǔ)模型中已排名第一,超過80%的詞匯位于基礎(chǔ)模型的前三候選之列,這揭示出其優(yōu)化機(jī)制的本質(zhì)——在高質(zhì)量候選集合內(nèi)進(jìn)行微調(diào)而非創(chuàng)造新選項(xiàng)。

對(duì)訓(xùn)練動(dòng)態(tài)的追蹤發(fā)現(xiàn),分布變化在訓(xùn)練過程中逐漸聚焦。初期模型會(huì)嘗試各種調(diào)整,但隨著訓(xùn)練推進(jìn),變化越來越集中在少數(shù)詞匯上。這種演化模式意味著,最終起作用的關(guān)鍵位置集合在訓(xùn)練后期才完全確定。基于這一發(fā)現(xiàn),研究團(tuán)隊(duì)提出散度加權(quán)優(yōu)勢(shì)函數(shù)方法,通過調(diào)節(jié)詞匯級(jí)學(xué)習(xí)信號(hào)來優(yōu)化訓(xùn)練。實(shí)驗(yàn)表明,該策略在數(shù)學(xué)推理任務(wù)中可將準(zhǔn)確率提升2-3個(gè)百分點(diǎn),為開發(fā)更高效的訓(xùn)練方法開辟了新路徑。

這項(xiàng)研究不僅改變了AI訓(xùn)練的技術(shù)路線,更引發(fā)對(duì)學(xué)習(xí)本質(zhì)的深層思考。當(dāng)發(fā)現(xiàn)AI的"聰明"源于關(guān)鍵時(shí)刻的精準(zhǔn)判斷,而非海量計(jì)算時(shí),這種認(rèn)知轉(zhuǎn)變正在重塑AI研發(fā)的底層邏輯。未來的訓(xùn)練方法或?qū)⒕劢褂谧R(shí)別和優(yōu)化這些關(guān)鍵決策點(diǎn),在提高效率的同時(shí),為理解AI行為提供更清晰的視角。對(duì)普通用戶而言,這意味著更精準(zhǔn)高效的AI服務(wù)正在到來,而其背后的技術(shù)突破,或許也能為人類學(xué)習(xí)策略的優(yōu)化提供有益啟示。

Q&A

問:強(qiáng)化學(xué)習(xí)訓(xùn)練中的關(guān)鍵改變比例是否固定?
答:研究顯示關(guān)鍵改變比例與訓(xùn)練方法密切相關(guān)。SimpleRL方法下僅1.7%詞匯位置發(fā)生顯著變化,DAPO方法則將比例提升至17%左右。交叉采樣實(shí)驗(yàn)證實(shí),在數(shù)學(xué)推理任務(wù)中,1.53%-4%的關(guān)鍵詞匯替換即可實(shí)現(xiàn)性能飛躍,證明不同場(chǎng)景下起作用的改變比例存在差異,但普遍集中在極少數(shù)位置。

問:為什么強(qiáng)化學(xué)習(xí)不進(jìn)行全面優(yōu)化而是聚焦關(guān)鍵點(diǎn)?
答:這種策略源于其獨(dú)特的優(yōu)化機(jī)制。強(qiáng)化學(xué)習(xí)通過重新排序現(xiàn)有候選詞匯而非引入新選項(xiàng)來工作,約80%的強(qiáng)化學(xué)習(xí)首選詞匯已存在于基礎(chǔ)模型的前三候選之列。同時(shí),模型更傾向于修正原本不確定的高熵位置,這種精準(zhǔn)干預(yù)既能保持模型原有能力,又能高效修正關(guān)鍵推理決策,實(shí)現(xiàn)性能質(zhì)的提升。

問:這項(xiàng)發(fā)現(xiàn)對(duì)AI開發(fā)實(shí)踐有何具體影響?
答:該研究為訓(xùn)練方法優(yōu)化提供了新方向。傳統(tǒng)方法追求全面改進(jìn),而新發(fā)現(xiàn)提示可專注于識(shí)別關(guān)鍵決策點(diǎn)。研究團(tuán)隊(duì)開發(fā)的散度加權(quán)優(yōu)勢(shì)方法已在實(shí)驗(yàn)中提升模型準(zhǔn)確率2-3個(gè)百分點(diǎn),證明通過調(diào)節(jié)詞匯級(jí)學(xué)習(xí)信號(hào)可顯著提高訓(xùn)練效率。這種精準(zhǔn)優(yōu)化策略有望降低計(jì)算成本,同時(shí)增強(qiáng)對(duì)AI行為的可控性,最終為用戶帶來更優(yōu)質(zhì)的AI產(chǎn)品。

 
 
更多>同類天脈資訊
全站最新
熱門內(nèi)容
媒體信息
新傳播周刊
新傳播,傳播新經(jīng)濟(jì)之聲!