在具身智能領域,一場圍繞數據供給能力的競爭正悄然升級。盡管資本不斷涌入,但行業普遍面臨“能執行卻不智能”的困境,其根源在于高質量訓練數據的嚴重短缺。據統計,全球可用的具身數據總量僅約五十萬小時,與大語言模型訓練所需的語料規模相差萬倍以上。這種差距催生了全新的數據基礎設施市場,多家企業紛紛布局,試圖在這片藍海中占據先機。
四月十六日,智元機器人旗下的覓蜂科技宣布推出一站式物理AI數據服務平臺,正式以“數據賣鏟人”的角色切入市場。該公司CEO姚卯青在發布會上透露,國內真機數據采集的價格已飆升至每小時五百至一千元,需求端處于“有多少買多少”的緊缺狀態。為緩解供給瓶頸,覓蜂科技推出了覆蓋真機遙操作、無本體采集與仿真數據的全范式平臺,并同步發布了MEgo系列采集硬件,包括專用夾爪和頭戴式設備。按照規劃,該企業將在年內實現千萬小時級的數據產能,并計劃到2030年將規模擴大至百億小時。
針對外界對覓蜂科技獨立性的質疑,姚卯青強調,盡管公司脫胎于智元機器人,但運營完全獨立。智元機器人獲取數據需通過市場渠道,與其他客戶遵循相同的商業條款。這一安排旨在消除同行對數據命脈被壟斷的顧慮,為行業合作創造公平環境。
大廠的入場進一步加速了數據基建的規模化進程。同日,京東展示了其具身智能數據體系,覆蓋采集、存儲、標注、訓練、評測、仿真與測試全鏈條。依托遍布全國的倉儲物流網絡和多元線下場景,京東構建了真實環境下的數據護城河。戴盟機器人則發布了包含觸覺信息的全模態數據集Daimon-Infinity,預計年內規模將達數百萬小時,并率先在阿里魔搭開源一萬小時數據。百度智能云也在月初聯合多家企業推出了“具身智能數據超市”,進一步豐富了市場供給。
然而,數據質量仍是行業面臨的核心挑戰。布米普特拉北京投資基金管理有限公司的分析師指出,超過九成的采集數據因重復、噪聲或缺乏物理反饋而難以直接使用。真正稀缺的并非原始數據量,而是高價值數據的精煉與閉環迭代能力。隨著數據基礎設施逐漸成為具身智能的底層命脈,誰能率先建立高質量數據供給體系并掌握生態主導權,誰就能在這場萬億賽道的競爭中脫穎而出。這場圍繞數據定義權的競逐,才剛剛拉開帷幕。













