小米機(jī)器人團(tuán)隊(duì)近日宣布,正式開源其研發(fā)的具身智能VLA模型——Xiaomi-Robotics-0。該模型以47億參數(shù)的規(guī)模,通過MoT混合架構(gòu)設(shè)計(jì),將多模態(tài)VLM大模型與多層DiT結(jié)構(gòu)深度融合,實(shí)現(xiàn)了通用理解能力與精細(xì)控制能力的平衡。這一技術(shù)突破為機(jī)器人領(lǐng)域帶來了新的可能性。
在性能測(cè)試中,Xiaomi-Robotics-0展現(xiàn)了顯著優(yōu)勢(shì)。該模型在Libero、Calvin和SimplerEnv等主流測(cè)試集上,與30種同類模型對(duì)比后均取得最優(yōu)成績(jī),并首次在消費(fèi)級(jí)硬件上實(shí)現(xiàn)了實(shí)時(shí)推理能力。這一成果意味著機(jī)器人無需依賴高端計(jì)算設(shè)備即可流暢運(yùn)行復(fù)雜任務(wù),大幅降低了技術(shù)落地門檻。
針對(duì)傳統(tǒng)VLA模型普遍存在的推理延遲問題,研發(fā)團(tuán)隊(duì)創(chuàng)新性地采用異步推理模式與Λ-shape Attention Mask機(jī)制。這些技術(shù)使機(jī)器人在執(zhí)行積木拆解、疊毛巾等精細(xì)操作時(shí),能夠保持動(dòng)作連貫性并快速響應(yīng)環(huán)境變化。例如,在疊毛巾任務(wù)中,模型通過實(shí)時(shí)調(diào)整抓取力度和路徑規(guī)劃,成功完成了傳統(tǒng)算法難以實(shí)現(xiàn)的柔性物體操作。
該模型還保留了物體檢測(cè)、視覺問答等跨模態(tài)預(yù)訓(xùn)練能力。通過統(tǒng)一架構(gòu)設(shè)計(jì),機(jī)器人既能理解自然語言指令,又能精準(zhǔn)感知三維空間信息。這種多任務(wù)協(xié)同處理能力,為家庭服務(wù)、工業(yè)制造等場(chǎng)景的智能化升級(jí)提供了技術(shù)支撐。目前,相關(guān)代碼已通過開源平臺(tái)向全球開發(fā)者開放,有望推動(dòng)具身智能技術(shù)的快速發(fā)展。












