據外媒報道,OpenAI正加速推進語音AI技術革新與硬件產品布局,計劃于2026年第一季度推出新一代語音AI模型,并同步研發首款完全依賴語音交互的個人設備。這一戰略標志著OpenAI從純軟件服務向“軟硬一體”生態的轉型,其硬件產品矩陣可能涵蓋智能眼鏡、無屏音箱等形態,試圖重新定義人機交互方式。
新一代語音AI模型的核心突破在于實現“類人對話”體驗。通過架構重構,該模型支持用戶說話時同步播報,并能靈活應對打斷、插話等場景,延遲與音質接近真實對話。其技術路徑可追溯至OpenAI此前布局:2022年推出的Whisper系統解決了語音識別精度問題,2025年發布的GPT-realtime模型則探索了低延遲連續交互。此次升級整合了工程、產品與研究團隊資源,旨在彌補語音模型在準確性與響應速度上與文本模型的差距。
驅動語音模型的技術底座與ChatGPT文本模型存在差異,項目由語音AI研究員昆丹·庫馬爾主導。他今年夏天從Character.AI加入OpenAI,此前該公司以AI陪伴應用聞名。產品研究主管本·紐豪斯與多模態ChatGPT產品經理杰基·香農亦參與核心開發,后者曾推動OpenAI基礎設施向語音模型適配。
硬件層面,OpenAI正研發一款無屏語音設備,用戶可通過語音指令完成目標管理、環境感知等任務。設備需授權訪問攝像頭與麥克風,以分析用戶狀態與場景信息,提供情境化建議。例如,在烹飪時主動提示步驟,或在會議中提醒日程安排。該設備研發團隊吸納了前蘋果首席設計官喬納森·艾維創立的io公司成員,后者于2025年5月被OpenAI以近65億美元收購,約55名設計師加入硬件設計工作。
OpenAI的硬件戰略并非單一產品,而是分階段推出系列設備。內部討論的形態包括智能眼鏡與無屏音箱,均以“去屏幕化”為設計原則。喬納森·艾維認為,此類設備可減少用戶對屏幕的依賴,修復消費電子產品帶來的成癮問題。這一理念與谷歌、亞馬遜等巨頭的布局形成呼應——后者均認為現有設備形態未充分釋放AI潛力,需通過可穿戴設備等新形態搶占未來入口。
然而,OpenAI面臨用戶習慣培養的挑戰。前員工透露,大量ChatGPT用戶因體驗不成熟或缺乏認知,尚未形成語音交互習慣。這要求OpenAI在推出硬件前,需先通過軟件迭代提升語音功能滲透率。例如,在移動端優化語音輸入響應速度,或通過營銷活動引導用戶嘗試語音交互。
行業觀察者指出,OpenAI的轉型反映了AI公司從“算法提供方”向“生態構建者”的演進趨勢。通過硬件載體,AI技術可更深度融入用戶生活場景,形成數據閉環與粘性優勢。但這一路徑也充滿風險:硬件研發周期長、成本高,且需面對蘋果、三星等巨頭的競爭。OpenAI能否在語音交互領域復制ChatGPT的成功,仍需觀察其技術落地與市場接受度。












