小米公司近日在人工智能領域再獲突破性進展,其技術團隊成功研發出全球首個一步式潛空間語言視覺推理框架——Xiaomi OneVL。該框架創新性地將視覺語言動作(VLA)、世界模型構建與潛空間推理三大核心技術路線整合為統一體系,標志著多模態智能系統架構設計邁入全新階段。
據小米官方披露,這項技術成果建立在今年3月發布的XLA認知大模型架構基礎之上,通過潛空間推理技術實現了跨模態信息的深度融合。在自動駕駛、機器人控制等復雜場景中,該框架展現出顯著優勢,其推理效率較傳統方法提升40%以上,規劃決策準確率達到行業領先水平。特別在處理動態環境感知與實時決策任務時,系統能同時處理視覺、語言及動作指令的交互關系。
小米董事長雷軍通過社交平臺宣布,Xiaomi OneVL的全部模型權重、訓練數據及推理代碼將向全球開發者開源。他特別強調:"我們期待與全球科研機構共建開放生態,共同探索多模態智能在自動駕駛、工業自動化等領域的創新應用。"目前,該框架已在GitHub平臺建立專屬代碼倉庫,配套提供完整的訓練文檔與開發工具包。
行業分析指出,Xiaomi OneVL的開源策略將加速多模態智能技術的普及進程。其獨特的架構設計為解決自動駕駛領域的"長尾問題"提供了新思路,特別是在復雜路況下的決策可靠性方面具有突破性意義。多家自動駕駛企業已表示將基于該框架開展聯合研發,預計年內將推出首批應用案例。





















