螞蟻靈波科技近日宣布,正式開源其大規(guī)模RGB-D深度數(shù)據(jù)集LingBot-Depth-Dataset,為具身智能、空間感知和三維視覺等領域的研究與應用注入新動力。該數(shù)據(jù)集總規(guī)模達2.71TB,包含300萬對高質量樣本,其中200萬對來自真實場景采集,100萬對通過渲染生成,覆蓋6款主流深度相機,成為當前開源社區(qū)中規(guī)模最大的真實場景RGB-D數(shù)據(jù)集。
長期以來,公開深度數(shù)據(jù)集普遍面臨規(guī)模有限、真實場景覆蓋不足、硬件設備單一等挑戰(zhàn)。許多數(shù)據(jù)集以合成數(shù)據(jù)為主,與真實傳感器在噪聲、空洞和材質表現(xiàn)上存在顯著差異,導致相關模型在真實環(huán)境中的應用效果受限。LingBot-Depth-Dataset的發(fā)布,有效填補了這一領域的數(shù)據(jù)空白,為行業(yè)提供了大規(guī)模、高質量的真實場景數(shù)據(jù)支撐。
該數(shù)據(jù)集的每條樣本均包含RGB圖像、傳感器原始深度圖和真值深度圖,可直接用于深度估計與深度補全任務的訓練和評估。數(shù)據(jù)覆蓋Orbbec 335、335L以及Intel RealSense D405、D415、D435、D455等6款主流深度相機,有助于提升模型在不同設備和場景下的訓練、適配與評估能力。這種多設備、多場景的覆蓋,為相關技術在實際應用中的泛化性提供了重要保障。
螞蟻靈波此前開源的高精度空間感知模型LingBot-Depth,正是基于該數(shù)據(jù)集訓練而成。實驗表明,相比業(yè)界主流方法PromptDA與PriorDA,LingBot-Depth在室內(nèi)場景中的深度預測誤差降低超過70%,在稀疏深度補全等任務中的誤差降低約47%。搭載該模型的市售深度相機,無需硬件升級即可在透明玻璃、反光鏡面、逆光等復雜場景下輸出更完整、更平滑、邊緣更清晰的深度圖,部分場景表現(xiàn)甚至超越業(yè)界頂級工業(yè)級深度相機。
對于高校和科研機構而言,LingBot-Depth-Dataset的開源不僅降低了數(shù)據(jù)采集與標注的門檻,也為相關技術從研究驗證走向真實應用提供了有力支持。隨著機器人和具身智能技術加快進入實際場景,大規(guī)模、高質量、以真實采集為主體的空間感知數(shù)據(jù)集,正成為推動行業(yè)持續(xù)進步的重要基礎設施。此次開源有望加速相關技術的落地應用,為智能設備在復雜環(huán)境中的感知能力提升奠定基礎。






















