在北京亦莊舉辦的機器人馬拉松賽事中,300余臺機器人以自主導航或人類遙控的方式完成了比賽。這場活動不僅展現了機器人運動能力的顯著提升,也暴露出當前技術發展的核心瓶頸——數據匱乏。盡管機器人已開始在工廠流水線、舞臺表演等場景中應用,但其智能化水平仍遠未達到預期,高質量數據的稀缺成為制約行業突破的關鍵因素。
覓蜂科技董事長姚卯青指出,具身智能的突破依賴于數據量的積累與結構的優化。他比喻稱:“當前機器人行業正陷入數據荒漠,而智能涌現的時刻必然與數據規模和組成密切相關。”以人形機器人為例,其雖能完成半程馬拉松或工廠上下料等任務,但動作仍顯笨拙,距離真正智能還有巨大差距。相比之下,大語言模型如ChatGPT已通過海量文本數據實現了智能躍遷,而機器人所需的三維空間數據獲取難度呈指數級增長。
數據獲取成本與復雜度的差異在訓練需求上體現得尤為明顯。姚卯青透露,領先大語言模型如GPT-5使用了100萬億token的訓練語料,而機器人需要的是真實世界中的三維交互數據。例如,機器人學習搬運物品需通過實際操作獲取反饋,這類數據的采集成本高昂,且需經過標注、清洗等復雜流程才能使用。極佳視界聯合創始人朱政坦言,公司訓練模型使用的數十萬小時數據中,大部分來自實驗室環境,缺乏家庭、工業等真實場景的泛化能力。
數據質量參差不齊進一步加劇了行業困境。朱政舉例稱,多模態模型訓練中,圖片標注可能包含數千字描述,而視頻數據標注卻往往過于簡略,導致模型難以理解復雜任務。姚卯青補充道,市場上充斥著標注不規范、傳感器同步錯誤等低質數據,甚至出現“垃圾數據進,垃圾模型出”的現象。這種狀況使得企業難以判斷模型效果不佳是源于算法缺陷還是數據問題,嚴重阻礙了技術迭代。
評價體系缺失是數據利用效率低下的另一原因。謝晨指出,行業缺乏開放、真實的具身模型評估標準,導致企業難以確定數據采集方向。他以特斯拉FSD為例,強調具身智能需要10億個“數據生成器”來模擬人類與物體的交互,這需動員真機、仿真和人類三大核心資源。極佳視界的實踐印證了這一挑戰:其每年在GPU算力上投入數千萬人民幣,若數據規模擴大千倍,成本將遠超承受能力。
面對數據困境,企業正通過技術優化與生態協作尋求突破。朱政表示,極佳視界在擴增數據的同時,正致力于改進模型架構以提升效率。姚卯青則呼吁行業建立統一數據標準,打破企業間的數據孤島,降低協作成本。在這場探尋高質量數據的“馬拉松”中,機器人行業既需要特斯拉式的規模化實踐,也需構建開放共享的生態體系,方能推動具身智能從實驗室走向真實世界。













