人形機器人新突破！WholeBodyVLA框架實現(xiàn)行走操作協(xié)同，驗證全身控制可行路徑

發(fā)布時間：2025-12-18 21:54 來源：快訊作者：楊凌霄

在具身智能領域，讓雙足人形機器人像人類一樣完成裝箱、搬運、推車等移動操作任務，始終是科研人員努力的方向。近期，由香港大學、智元AGIBOT、復旦大學以及上海創(chuàng)智學院組成的聯(lián)合研究團隊，取得了一項重要成果——提出WholeBodyVLA框架，為雙足人形機器人的自主全身控制開辟了新路徑。

該研究基于智元靈犀X2展開，將視覺語言動作模型（VLA）拓展至雙足人形機器人的全身控制范疇，并成功驗證了其在全身移動操作任務中的可行性。與原地操作不同，移動操作面臨更為復雜的挑戰(zhàn)。其難點并非掌握單一技能，而是要求行走與操作在同一任務中長時間、穩(wěn)定地協(xié)同進行。

圍繞這一難題，WholeBodyVLA框架總結出制約移動操作發(fā)展的兩大核心問題：真機數(shù)據(jù)稀缺以及運動執(zhí)行過程中的不穩(wěn)定性。在人形機器人執(zhí)行移動操作任務時，數(shù)據(jù)采集的難度和成本遠高于原地操作。通常需要多名數(shù)采員同時協(xié)作，通過遙操讓機器人上半身進行操作、下半身完成行走。這一過程往往借助混合方案實現(xiàn)，比如用VR控制上半身、遙控器控制下半身，但這種方式操作流程繁瑣、效率低下；若采用全身動捕系統(tǒng)，又會面臨高昂的價格。

同時，移動操作對運動精準性和穩(wěn)定性的要求極高。與單純的操作相比，任何細微的偏差都可能使目標操作物體脫離相機視野和工作空間。即便VLA輸出了正確的運動指令，下半身控制器仍可能出現(xiàn)執(zhí)行失誤，例如走歪、踉蹌等情況。

為攻克這些難題，研究團隊在WholeBodyVLA框架中引入了兩項關鍵創(chuàng)新。一方面，從人類視頻中學習移動與操作的潛在動作。該框架通過第一視角的人類視頻學習相關動作，其中操作相關的潛在動作基于AgiBot World數(shù)據(jù)集進行建模。另一方面，設計了面向移動操作的強化學習（RL）控制器。將通用連續(xù)運動控制目標簡化為一組離散運動指令，僅保留移動操作必要的強化學習訓練目標，從而大幅提升控制器在運動執(zhí)行時的穩(wěn)定性。

研究團隊在智元靈犀X2人形機器人上開展了大量真機實驗。實驗結果表明，WholeBodyVLA框架使機器人具備了大范圍、長程移動操作任務的能力，在距離、操作和地形等方面都展現(xiàn)出良好的泛化性。

更多>同類內容