螞蟻靈波科技近日宣布,正式開(kāi)源其大規(guī)模RGB-D深度數(shù)據(jù)集LingBot-Depth-Dataset,為具身智能、空間感知和三維視覺(jué)等領(lǐng)域的研究與應(yīng)用注入新動(dòng)力。該數(shù)據(jù)集總規(guī)模達(dá)2.71TB,包含300萬(wàn)對(duì)高質(zhì)量樣本,其中200萬(wàn)對(duì)來(lái)自真實(shí)場(chǎng)景采集,100萬(wàn)對(duì)通過(guò)渲染生成,覆蓋6款主流深度相機(jī),成為當(dāng)前開(kāi)源社區(qū)中規(guī)模最大的真實(shí)場(chǎng)景RGB-D數(shù)據(jù)集。
長(zhǎng)期以來(lái),公開(kāi)深度數(shù)據(jù)集普遍面臨規(guī)模有限、真實(shí)場(chǎng)景覆蓋不足、硬件設(shè)備單一等挑戰(zhàn)。許多數(shù)據(jù)集以合成數(shù)據(jù)為主,與真實(shí)傳感器在噪聲、空洞和材質(zhì)表現(xiàn)上存在顯著差異,導(dǎo)致相關(guān)模型在真實(shí)環(huán)境中的應(yīng)用效果受限。LingBot-Depth-Dataset的發(fā)布,有效填補(bǔ)了這一領(lǐng)域的數(shù)據(jù)空白,為行業(yè)提供了大規(guī)模、高質(zhì)量的真實(shí)場(chǎng)景數(shù)據(jù)支撐。
該數(shù)據(jù)集的每條樣本均包含RGB圖像、傳感器原始深度圖和真值深度圖,可直接用于深度估計(jì)與深度補(bǔ)全任務(wù)的訓(xùn)練和評(píng)估。數(shù)據(jù)覆蓋Orbbec 335、335L以及Intel RealSense D405、D415、D435、D455等6款主流深度相機(jī),有助于提升模型在不同設(shè)備和場(chǎng)景下的訓(xùn)練、適配與評(píng)估能力。這種多設(shè)備、多場(chǎng)景的覆蓋,為相關(guān)技術(shù)在實(shí)際應(yīng)用中的泛化性提供了重要保障。
螞蟻靈波此前開(kāi)源的高精度空間感知模型LingBot-Depth,正是基于該數(shù)據(jù)集訓(xùn)練而成。實(shí)驗(yàn)表明,相比業(yè)界主流方法PromptDA與PriorDA,LingBot-Depth在室內(nèi)場(chǎng)景中的深度預(yù)測(cè)誤差降低超過(guò)70%,在稀疏深度補(bǔ)全等任務(wù)中的誤差降低約47%。搭載該模型的市售深度相機(jī),無(wú)需硬件升級(jí)即可在透明玻璃、反光鏡面、逆光等復(fù)雜場(chǎng)景下輸出更完整、更平滑、邊緣更清晰的深度圖,部分場(chǎng)景表現(xiàn)甚至超越業(yè)界頂級(jí)工業(yè)級(jí)深度相機(jī)。
對(duì)于高校和科研機(jī)構(gòu)而言,LingBot-Depth-Dataset的開(kāi)源不僅降低了數(shù)據(jù)采集與標(biāo)注的門(mén)檻,也為相關(guān)技術(shù)從研究驗(yàn)證走向真實(shí)應(yīng)用提供了有力支持。隨著機(jī)器人和具身智能技術(shù)加快進(jìn)入實(shí)際場(chǎng)景,大規(guī)模、高質(zhì)量、以真實(shí)采集為主體的空間感知數(shù)據(jù)集,正成為推動(dòng)行業(yè)持續(xù)進(jìn)步的重要基礎(chǔ)設(shè)施。此次開(kāi)源有望加速相關(guān)技術(shù)的落地應(yīng)用,為智能設(shè)備在復(fù)雜環(huán)境中的感知能力提升奠定基礎(chǔ)。













