在國際頂級機器人學術期刊《Science Robotics》上,一項關于機器人空間智能的研究成果引發(fā)了廣泛關注。這項名為“A retrieval-augmented framework enabling VLM spatial awareness for object-centric robot manipulation”的研究,由浙江人形機器人創(chuàng)新中心聯(lián)合香港中文大學、浙江大學等多家高校與科研機構共同完成,提出了一種名為RAM(Retrieval-Augmented Manipulation)的三維空間理解與操作模型,為機器人復雜任務操作提供了新的技術路徑。
當前,以視覺語言大模型(VLM)為代表的AI技術正逐步提升機器人理解自然語言指令和分解復雜任務的能力。然而,從“聽懂指令”到“完成動作”之間,機器人仍需跨越一道關鍵障礙:如何在三維空間中準確理解物體的位置、朝向、尺度、可操作區(qū)域及其相互關系,并將這些信息轉(zhuǎn)化為可執(zhí)行的運動約束。這一挑戰(zhàn)成為制約機器人技術進一步發(fā)展的瓶頸。
針對這一難題,研究團隊提出的RAM模型借鑒了檢索增強生成(RAG)的思想,為大模型配備了一個可查詢的外部三維知識庫。在執(zhí)行任務時,機器人可以根據(jù)需要檢索物體類別、幾何屬性、功能平面、抓取點等空間先驗信息,從而彌補視覺語言模型在三維空間理解方面的不足。與將知識隱含在模型參數(shù)中的傳統(tǒng)方法不同,RAM的空間知識更加顯式、可解釋,且便于擴展。
為了驗證RAM模型的有效性,研究團隊構建了一個面向機器人操作場景的空間理解問答評測集。該評測集從相對位置、旋轉(zhuǎn)方向、操作可行性、任務規(guī)劃和尺寸估計等多個維度評估模型的空間認知能力。實驗結(jié)果顯示,在評測集覆蓋的多類空間推理任務中,RAM模型的整體表現(xiàn)優(yōu)于多種代表性視覺語言大模型。RAM還展現(xiàn)出一定的通用性和擴展性,能夠適應不同場景下的任務需求。
據(jù)相關負責人介紹,人形機器人要走向真實應用場景,不僅需要具備強大的硬件本體、靈巧手和運動控制能力,還需要擁有理解三維環(huán)境、判斷物理約束并規(guī)劃可執(zhí)行動作的算法能力。這項空間智能技術的研究,為人形機器人未來在復雜應用場景中的落地提供了有力支撐。
目前,浙江人形機器人創(chuàng)新中心正圍繞平臺建設與場景需求,持續(xù)關注三維感知、任務規(guī)劃、靈巧操作和具身智能等關鍵能力的融合發(fā)展。團隊致力于推動相關技術在工業(yè)制造、家庭服務、智能康養(yǎng)等頗具挑戰(zhàn)性的場景中的探索驗證與逐步落地,為機器人技術的廣泛應用奠定堅實基礎。
“我們將繼續(xù)推動前沿研究與工程實踐之間的銜接,圍繞機器人空間認知、長程任務規(guī)劃和自主決策等方向開展深入探索。”該負責人表示,“通過不斷優(yōu)化算法模型和技術架構,我們期待人形機器人能夠在更復雜、更真實的環(huán)境中實現(xiàn)可靠操作與智能協(xié)作。”























