在人工智能領(lǐng)域的前沿探索中,小米團(tuán)隊(duì)近期取得多項(xiàng)突破性進(jìn)展,其多篇研究成果成功入選國(guó)際頂級(jí)會(huì)議ICLR 2026。這一會(huì)議以推動(dòng)人工智能理論與方法創(chuàng)新為核心目標(biāo),小米團(tuán)隊(duì)的入選成果覆蓋多模態(tài)推理、強(qiáng)化學(xué)習(xí)、智能體交互、自動(dòng)駕駛及音頻生成等關(guān)鍵方向,展現(xiàn)了該公司在AI技術(shù)全棧布局中的深厚積累。
針對(duì)強(qiáng)化學(xué)習(xí)領(lǐng)域長(zhǎng)期存在的訓(xùn)練效率瓶頸,小米團(tuán)隊(duì)提出的《Shuffle-R1》框架通過(guò)動(dòng)態(tài)重組數(shù)據(jù)流實(shí)現(xiàn)突破。該研究創(chuàng)新性引入成對(duì)軌跡采樣與優(yōu)勢(shì)值批次重排序技術(shù),有效解決了多模態(tài)大模型訓(xùn)練中的優(yōu)勢(shì)坍縮與軌跡沉默問(wèn)題。實(shí)驗(yàn)數(shù)據(jù)顯示,在保持極低計(jì)算開(kāi)銷的同時(shí),該框架在多個(gè)基準(zhǔn)測(cè)試中超越現(xiàn)有強(qiáng)化學(xué)習(xí)基線模型,為復(fù)雜場(chǎng)景下的智能決策提供了新范式。
在移動(dòng)智能體交互領(lǐng)域,《MobileIPL》研究構(gòu)建了迭代偏好學(xué)習(xí)框架,通過(guò)Thinking-level DPO技術(shù)實(shí)現(xiàn)思考步驟的精細(xì)化優(yōu)化。其獨(dú)創(chuàng)的三階段指令演化機(jī)制突破了高質(zhì)量軌跡數(shù)據(jù)稀缺的制約,在AITZ等主流GUI-Agent測(cè)試中刷新性能紀(jì)錄。該成果特別在分布外場(chǎng)景中展現(xiàn)出顯著增強(qiáng)的魯棒性,為智能設(shè)備的人機(jī)交互提供了更可靠的解決方案。
端到端自動(dòng)駕駛研究方面,《ReCogDrive》項(xiàng)目實(shí)現(xiàn)了多技術(shù)模塊的深度融合。研究團(tuán)隊(duì)通過(guò)分層認(rèn)知數(shù)據(jù)流水線注入駕駛領(lǐng)域知識(shí),結(jié)合認(rèn)知引導(dǎo)擴(kuò)散規(guī)劃器生成物理可行軌跡,并首創(chuàng)DiffGRPO強(qiáng)化學(xué)習(xí)算法直接優(yōu)化駕駛策略。閉環(huán)測(cè)試表明,該方案在NAVSIM與Bench2Drive等平臺(tái)上的表現(xiàn)全面領(lǐng)先現(xiàn)有技術(shù)路線,為自動(dòng)駕駛系統(tǒng)的認(rèn)知能力提升開(kāi)辟了新路徑。
其他創(chuàng)新成果同樣引人注目:《ThinkOmni》研究實(shí)現(xiàn)了文本推理能力向視覺(jué)、語(yǔ)音等多模態(tài)的零成本遷移;《Flow2GAN》通過(guò)融合流匹配與對(duì)抗生成技術(shù),在保持音頻高保真度的同時(shí)將合成步數(shù)大幅壓縮;《WorldSplat》則突破4D動(dòng)態(tài)駕駛場(chǎng)景生成技術(shù),為自動(dòng)駕駛仿真測(cè)試提供更真實(shí)的虛擬環(huán)境。這些成果共同構(gòu)成了小米在人工智能領(lǐng)域的技術(shù)矩陣,彰顯其從基礎(chǔ)研究到應(yīng)用落地的全鏈條創(chuàng)新能力。













