成人美女黄网站免费|哔哩哔哩免费观看在线视频|freexx老女人|欧美精品三区|近的2019中文字幕在线|97中文字幕一区二区|日本jazz护士

巨人財經(jīng) - 專業(yè)科技行業(yè)財經(jīng)媒體

蘋果公布三項AI研究新成果,持續(xù)深耕空間計算

   發(fā)布時間:2026-05-12 16:38 作者:江紫萱

近日,科技領(lǐng)域傳來新動態(tài),蘋果公司在空間計算與 Vision Pro 頭顯項目上的進展備受關(guān)注。此前有消息稱,蘋果公司內(nèi)部擱置了新款 Vision Pro 的研發(fā),將團隊重心轉(zhuǎn)向 Siri 和 AI 智能眼鏡,然而最新公開的三項研究卻表明,蘋果并未放棄 Vision Pro 頭顯項目。

蘋果此次公開的三項研究分別涉及多模態(tài)大模型空間推理評測、美式手語視頻標注以及 3D 頭部重建。其中,在機器學(xué)習(xí)博客發(fā)布的《From Where Things Are to what They’re For:Benchmarking Spatial-Functional Intelligence for Multimodal LLMs》論文頗具亮點。該論文提出了 SFI-Bench,用于測試多模態(tài)大模型對空間布局的理解以及物體功能的認知能力。這套視頻基準包含 134 段室內(nèi)視頻掃描,并整理出 1555 道專家標注問題。與以往只測試空間識別的舊方法不同,SFI-Bench 不僅會問模型“這是什么、在哪里”,還會追問“它怎么用、出了故障怎么辦”。例如,讓模型從柜子里找出同品牌數(shù)量最多的一組瓶子,理解洗衣機當前程序如何取消,或者判斷電視遙控器的用途,這些測試更貼近日常家庭場景,也更接近未來空間助手需要處理的真實任務(wù)。在測試結(jié)果中,Google Gemini 3.1 Pro 總分最高,OpenAI GPT-5.4-High 排名第二,Gemini-3.1-Flash-Lite 排名第三。不過,論文也指出,幾乎所有模型都不擅長“帶條件的全局計數(shù)”,并且在空間記憶、功能知識整合以及將眼前畫面與外部知識關(guān)聯(lián)等方面存在明顯限制。

另一項研究《Bootstrapping Sign Language Annotations with Sign Language Models》聚焦于美式手語視頻標注。研究團隊嘗試利用 AI 自動生成候選標注,以減少手工標注的時間成本。團隊建立了近 500 條人工英文字詞到術(shù)語標注,并擴展到超過 300 小時的 ASL STEM Wiki 和 7.5 小時的 FLEURS-ASL 數(shù)據(jù)。其手指拼寫模型在 FSBoard 上達到 6.7% CER,在 ASL Citizen 數(shù)據(jù)集上達到 74% top-1 準確率。

第三項研究《Large-Scale High-Quality 3D Gaussian Head Reconstruction from Multi-View Captures》則把重點放在了 3D 頭像重建上。蘋果提出了 HeadsUp 方法,能夠從大規(guī)模多攝像頭采集中重建高質(zhì)量的 3D Gaussian 頭部模型。測試使用了包含超過 10000 名受試者的內(nèi)部數(shù)據(jù)集,規(guī)模比現(xiàn)有多視角人頭數(shù)據(jù)集高一個數(shù)量級。這一研究成果可能與 Vision Pro 的 Persona 功能,或者 visionOS 中更自然的人臉捕捉與表情渲染相關(guān)。

蘋果公司全球營銷高級副總裁格雷格·喬斯維亞克(Greg Joswiak)曾表示,Vision Pro 展示了數(shù)字世界與物理世界融合的未來形態(tài),這種融合是必然的。當被問及“空間計算”何時能成為主流時,他坦言無法預(yù)測具體時間,但堅信這一發(fā)展方向不可逆轉(zhuǎn)。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新