導(dǎo)航巨頭高德,竟在具身智能領(lǐng)域掀起了一場(chǎng)風(fēng)暴。當(dāng)人們還在疑惑一個(gè)國(guó)民級(jí)導(dǎo)航應(yīng)用為何與機(jī)器人、機(jī)器狗產(chǎn)生關(guān)聯(lián)時(shí),高德已帶著首個(gè)面向AGI的全棧具身技術(shù)體系A(chǔ)Bot驚艷亮相,且成績(jī)斐然,躋身全球第一梯隊(duì)。
在大多數(shù)行業(yè)玩家還在專注于單點(diǎn)突破時(shí),高德率先實(shí)現(xiàn)了數(shù)據(jù)、模型、Agent從下到上的全面打通。其世界模型在國(guó)際挑戰(zhàn)賽中表現(xiàn)卓越,分?jǐn)?shù)超越谷歌、英偉達(dá),ABot體系更是橫掃具身智能全球15項(xiàng)SOTA。這一成績(jī)引發(fā)了眾人的好奇:一個(gè)做導(dǎo)航的,究竟憑什么能在具身智能賽道脫穎而出?
深入探究發(fā)現(xiàn),高德的成功并非僅僅依賴“數(shù)據(jù)多”。在其ABot全棧具身技術(shù)體系中,最底層雖是數(shù)據(jù),但高德構(gòu)建了一個(gè)“物理優(yōu)先、動(dòng)作可控、閉環(huán)進(jìn)化”的機(jī)器人世界操作系統(tǒng),實(shí)現(xiàn)了從“視覺(jué)渲染范式”向“可微分物理引擎范式”的根本性轉(zhuǎn)變。當(dāng)其他模型還在生成看似真實(shí)的視頻時(shí),高德的ABot - World已能輸出符合物理規(guī)律的動(dòng)態(tài)變化過(guò)程,不僅能說(shuō)明“發(fā)生了什么”,還能解釋“為什么發(fā)生”以及“如果這樣做會(huì)發(fā)生什么”,這也是它成為全球唯一三項(xiàng)指標(biāo)(物理合規(guī)性/動(dòng)作可控性/零樣本泛化)全面SOTA的關(guān)鍵原因。
面對(duì)“如何讓機(jī)器人理解真實(shí)物理世界”這一難題,高德沒(méi)有選擇傳統(tǒng)的“采集→標(biāo)注→訓(xùn)練”路徑,而是另辟蹊徑,選擇“重建物理世界”。傳統(tǒng)方法成本高、效率低、覆蓋窄,而高德推出的可交互世界模型ABot - World,旨在構(gòu)建一個(gè)可交互、可推演、可進(jìn)化的機(jī)器人世界操作系統(tǒng)。它與數(shù)據(jù)合成、數(shù)據(jù)仿真看似思路相似,實(shí)則底層邏輯不同。合成仿真類似“照貓畫虎”,追求模擬盡可能逼近真實(shí);而高德基于現(xiàn)成的真實(shí)世界數(shù)據(jù),將場(chǎng)景還原后供機(jī)器人使用,精準(zhǔn)度更高。畢竟,高德在精密重建與理解物理世界方面本就具備優(yōu)勢(shì),每天處理大量來(lái)自衛(wèi)星、街景車、眾包設(shè)備的數(shù)據(jù),將其轉(zhuǎn)化為數(shù)字世界。
ABot - World采用雙引擎驅(qū)動(dòng)架構(gòu),即ABot - 3DGS和ABot - PhysWorld。ABot - 3DGS作為物理世界的“數(shù)字孿生工廠”,以高德積累的厘米級(jí)城市、道路、室內(nèi)空間數(shù)據(jù)及真實(shí)軌跡數(shù)據(jù)為基礎(chǔ),結(jié)合前沿的3DGS技術(shù),構(gòu)建可編程的數(shù)字孿生空間。在這里,數(shù)據(jù)不受采集條件限制,任意視角、光照、遮擋狀態(tài)均可生成,機(jī)器人形態(tài)也能靈活切換。更重要的是,它能系統(tǒng)性補(bǔ)齊長(zhǎng)尾交互場(chǎng)景,通過(guò)大規(guī)模組合與仿真,提前構(gòu)造極端情況和突發(fā)干擾,將覆蓋率提升至99%。而且,這里的“空間”帶有物理屬性,每個(gè)物體都被賦予質(zhì)量、摩擦系數(shù)等參數(shù),構(gòu)成可計(jì)算、可干預(yù)的物理環(huán)境。例如,調(diào)整物體質(zhì)量或地面摩擦系數(shù),機(jī)器人抓取時(shí)的力度和軌跡會(huì)相應(yīng)改變。ABot - 3DGS不再是簡(jiǎn)單的數(shù)據(jù)增強(qiáng)工具,而是主動(dòng)創(chuàng)造了一個(gè)比現(xiàn)實(shí)更豐富、更可控、更物理一致的“訓(xùn)練宇宙”。
高德積累的真實(shí)時(shí)空數(shù)據(jù)轉(zhuǎn)化為“機(jī)器人能用的訓(xùn)練材料”,經(jīng)歷了“一翻譯二重建三Run”的過(guò)程。“一翻譯”是將數(shù)據(jù)轉(zhuǎn)成機(jī)器能讀懂的“多模態(tài)Clip”,如騎車經(jīng)過(guò)路口時(shí),高德記錄的不僅是圖像,還包括路口的空間位置、紅綠燈狀態(tài)、行為以及周圍環(huán)境等信息,打包成千萬(wàn)級(jí)的Clip。“二重建”是ABot - 3DGS將路口、街道、商場(chǎng)等地方重建為萬(wàn)級(jí)規(guī)模的3D真實(shí)場(chǎng)景,這些場(chǎng)景因自帶物理規(guī)則和空間邏輯而“活”起來(lái)。“三Run”是將機(jī)器人放入場(chǎng)景中,批量生成千萬(wàn)級(jí)訓(xùn)練軌跡數(shù)據(jù)。
解決“懂物理”這一行業(yè)難題,則依靠ABot - PhysWorld。它基于14B參數(shù)的DiT主干構(gòu)建,是物理思維引擎,回答機(jī)器人“如果我這樣動(dòng),接下來(lái)會(huì)發(fā)生什么”的核心問(wèn)題。在數(shù)據(jù)層面,高德精選300萬(wàn)條真實(shí)操作視頻,用VLM + LLM雙階段標(biāo)注,構(gòu)建四層級(jí)物理語(yǔ)義結(jié)構(gòu)(意圖→動(dòng)作→軌跡→物理關(guān)系),為因果推理奠定基礎(chǔ)。訓(xùn)練層面,摒棄傳統(tǒng)MLE(像素相似度優(yōu)化),引入“物理判別機(jī)制”,通過(guò)Proposer module和Scorer module將優(yōu)化目標(biāo)從“像素相似度”轉(zhuǎn)向“物理一致性”,用Diffusion - DPO強(qiáng)化合規(guī)行為。輸出層面,ABot - PhysWorld的每一幀不僅是像素,更是包含質(zhì)量、接觸力場(chǎng)、慣性張量的可微分物理狀態(tài)快照,支持“動(dòng)作條件化推演”與“零樣本泛化”。
將兩個(gè)引擎結(jié)合,ABot - World內(nèi)部形成了持續(xù)增強(qiáng)的“數(shù)據(jù) - 模型”飛輪。ABot - 3DGS不斷生成高質(zhì)量訓(xùn)練材料,ABot - PhysWorld不斷提升對(duì)真實(shí)世界的理解。而且,ABot - World具備自我修正能力,支持完整的VLA閉環(huán)(預(yù)測(cè)→執(zhí)行→反饋→自我修正)。例如,機(jī)器人根據(jù)推演抓杯子失敗,誤差信號(hào)會(huì)回傳給ABot - PhysWorld,模型自動(dòng)調(diào)整參數(shù),下次預(yù)測(cè)更精準(zhǔn)。這種“自生長(zhǎng)、自修正、自適應(yīng)”的能力,讓機(jī)器人能在真實(shí)環(huán)境中持續(xù)進(jìn)化。
高德能跑到具身賽道前列,并非偶然。這是從給“人”導(dǎo)航到給“機(jī)器人”構(gòu)建物理世界操作系統(tǒng)的升維。高德的護(hù)城河不僅是“數(shù)據(jù)多”,還有地圖時(shí)代積累的空間理解、地圖構(gòu)建、實(shí)時(shí)更新能力,尤其是業(yè)界領(lǐng)先的POI(興趣點(diǎn))數(shù)據(jù)庫(kù)和路網(wǎng)語(yǔ)義信息。高德提供的數(shù)據(jù)帶“語(yǔ)義”,如“這里是星巴克的入口”“前方是人行橫道”等,而行業(yè)里大多數(shù)機(jī)器人的導(dǎo)航訓(xùn)練僅用幾何坐標(biāo)和視覺(jué)特征。帶語(yǔ)義的數(shù)據(jù)讓機(jī)器人理解“規(guī)則”和“常識(shí)”,更容易應(yīng)用到真實(shí)世界中。在北京亦莊機(jī)器人半馬活動(dòng)中,高德的四足機(jī)器狗已能幫助盲人朋友精準(zhǔn)導(dǎo)航。
如今,高德決定將ABot - World開(kāi)源,為開(kāi)發(fā)者提供統(tǒng)一的、物理合規(guī)的、可進(jìn)化的機(jī)器人世界模型操作系統(tǒng)。這一舉措將緩解行業(yè)數(shù)據(jù)不夠、仿真不夠真的問(wèn)題,推動(dòng)生態(tài)圍繞這一底座快速收斂并加速爆發(fā)。高德一邊鋪好底座,一邊帶動(dòng)生態(tài)發(fā)展,在具身賽道占據(jù)了核心位置。












