科技媒體近日披露,蘋果公司正通過一系列前沿研究深化空間計算領域布局,三篇最新公開的論文顯示其仍在持續投入Vision Pro頭顯相關技術研發。盡管此前有報道稱蘋果內部暫停了新款Vision Pro的開發,轉而聚焦Siri與AI智能眼鏡項目,但新研究成果表明該公司并未放棄這一戰略方向。
在機器學習領域,蘋果團隊開發了名為SFI-Bench的測試框架,用于評估多模態大模型的空間功能理解能力。該基準包含134段室內場景掃描視頻,并設計了1555個專家標注問題。與傳統測試不同,SFI-Bench不僅要求模型識別物體及其位置,還需回答"如何使用""故障處理"等復雜問題。例如測試場景中,模型需要從柜子中找出同品牌數量最多的瓶子,或理解如何取消洗衣機當前程序。實驗結果顯示,Google Gemini 3.1 Pro在綜合評分中領先,但所有模型在"帶條件的全局計數"任務中表現欠佳,空間記憶與功能知識整合能力仍有待提升。
另一項研究聚焦美國手語(ASL)標注自動化。研究人員構建了包含近500條人工標注的英文字詞-術語對應庫,并擴展出超過300小時的ASL STEM Wiki數據集和7.5小時的FLEURS-ASL數據。通過手指拼寫模型訓練,該系統在FSBoard測試中達到6.7%的字符錯誤率(CER),在ASL Citizen數據集上實現74%的top-1準確率。這項技術有望將傳統需要數百小時的手工標注工作大幅簡化。
第三項研究突破在于3D頭部重建技術。蘋果提出的HeadsUp方法利用層級建模技術,通過多視角圖像采集重建高精度3D高斯頭部模型。測試采用包含超萬名受試者的內部數據集,其規模較現有同類數據集提升一個數量級。這項技術或與Vision Pro的Persona功能及visionOS系統中的面部捕捉技術存在關聯,可能為虛擬化身創建提供更自然的表情渲染方案。
蘋果全球營銷高級副總裁格雷格·喬斯維亞克曾公開表示,Vision Pro代表了數字與物理世界融合的必然趨勢。雖然他拒絕預測"空間計算"成為主流的具體時間表,但強調這一技術發展方向具有不可逆轉性。三篇論文的集中發布,恰逢蘋果被傳調整頭顯研發策略之際,顯示出該公司在空間計算領域的持續技術積累。





















