寧波海曙人形機器人空間智能研究新突破獲國際頂級期刊認可

發(fā)布時間：2026-05-02 14:08 來源：快訊作者：柳晴雪

在國際頂級機器人學術期刊《Science Robotics》上，一項關于機器人空間智能的研究成果引發(fā)了廣泛關注。這項名為“A retrieval-augmented framework enabling VLM spatial awareness for object-centric robot manipulation”的研究，由浙江人形機器人創(chuàng)新中心聯(lián)合香港中文大學、浙江大學等多家高校與科研機構共同完成，提出了一種名為RAM（Retrieval-Augmented Manipulation）的三維空間理解與操作模型，為機器人復雜任務操作提供了新的技術路徑。

當前，以視覺語言大模型（VLM）為代表的AI技術正逐步提升機器人理解自然語言指令和分解復雜任務的能力。然而，從“聽懂指令”到“完成動作”之間，機器人仍需跨越一道關鍵障礙：如何在三維空間中準確理解物體的位置、朝向、尺度、可操作區(qū)域及其相互關系，并將這些信息轉(zhuǎn)化為可執(zhí)行的運動約束。這一挑戰(zhàn)成為制約機器人技術進一步發(fā)展的瓶頸。

針對這一難題，研究團隊提出的RAM模型借鑒了檢索增強生成（RAG）的思想，為大模型配備了一個可查詢的外部三維知識庫。在執(zhí)行任務時，機器人可以根據(jù)需要檢索物體類別、幾何屬性、功能平面、抓取點等空間先驗信息，從而彌補視覺語言模型在三維空間理解方面的不足。與將知識隱含在模型參數(shù)中的傳統(tǒng)方法不同，RAM的空間知識更加顯式、可解釋，且便于擴展。

為了驗證RAM模型的有效性，研究團隊構建了一個面向機器人操作場景的空間理解問答評測集。該評測集從相對位置、旋轉(zhuǎn)方向、操作可行性、任務規(guī)劃和尺寸估計等多個維度評估模型的空間認知能力。實驗結(jié)果顯示，在評測集覆蓋的多類空間推理任務中，RAM模型的整體表現(xiàn)優(yōu)于多種代表性視覺語言大模型。RAM還展現(xiàn)出一定的通用性和擴展性，能夠適應不同場景下的任務需求。

據(jù)相關負責人介紹，人形機器人要走向真實應用場景，不僅需要具備強大的硬件本體、靈巧手和運動控制能力，還需要擁有理解三維環(huán)境、判斷物理約束并規(guī)劃可執(zhí)行動作的算法能力。這項空間智能技術的研究，為人形機器人未來在復雜應用場景中的落地提供了有力支撐。

目前，浙江人形機器人創(chuàng)新中心正圍繞平臺建設與場景需求，持續(xù)關注三維感知、任務規(guī)劃、靈巧操作和具身智能等關鍵能力的融合發(fā)展。團隊致力于推動相關技術在工業(yè)制造、家庭服務、智能康養(yǎng)等頗具挑戰(zhàn)性的場景中的探索驗證與逐步落地，為機器人技術的廣泛應用奠定堅實基礎。

“我們將繼續(xù)推動前沿研究與工程實踐之間的銜接，圍繞機器人空間認知、長程任務規(guī)劃和自主決策等方向開展深入探索。”該負責人表示，“通過不斷優(yōu)化算法模型和技術架構，我們期待人形機器人能夠在更復雜、更真實的環(huán)境中實現(xiàn)可靠操作與智能協(xié)作。”

更多>同類內(nèi)容