在AI視頻生成領域,一場關于技術路線的競爭正愈演愈烈。當行業(yè)普遍聚焦于畫面質(zhì)量的提升時,米哈游前董事長蔡浩宇創(chuàng)立的AGI公司Anuttacon卻另辟蹊徑,推出了LPM 1.0模型,將虛擬角色的交互能力推向了新的高度。
長期以來,AI視頻生成領域面臨著“表演三難困境”:表現(xiàn)質(zhì)量、實時推理和長程穩(wěn)定性難以同時實現(xiàn)。大多數(shù)模型在短視頻領域表現(xiàn)優(yōu)異,但一旦涉及長時間、實時交互,便會出現(xiàn)角色特征驟變、身份不一致等問題。LPM 1.0的出現(xiàn),打破了這一僵局。它通過引入在線流式生成架構,實現(xiàn)了真正意義上的“無限時長”視頻生成,甚至在官網(wǎng)演示中展示了長達45分鐘的視頻。
LPM 1.0的核心突破在于其獨特的“主干-精煉器”結構。通過分布匹配蒸餾的四階段訓練方式,模型將170億參數(shù)的大型擴散模型壓縮為兩個部分:主干網(wǎng)絡負責穩(wěn)定視頻的粗略軌跡,精煉器則還原高保真的表情細節(jié)。這種設計使得模型在內(nèi)存占用恒定的情況下,能夠維持近乎永恒的身份一致性,解決了自回歸漂移導致的誤差累積問題。
除了長程穩(wěn)定性,LPM 1.0還首次實現(xiàn)了全雙工的音視頻對話。模型能夠同時處理兩路音頻流:一路驅(qū)動AI的口型同步,另一路根據(jù)用戶的語音實時調(diào)整反應。這使得AI能夠像人類一樣,根據(jù)語氣和停頓產(chǎn)生點頭、挑眉等微表情,大大增強了交互的自然性。盡管在畫面真實度上仍有提升空間,但這種實時交互能力已讓虛擬角色從“復讀機”進化為具有生命感的數(shù)字化存在。
蔡浩宇的背景為Anuttacon的技術路線提供了獨特優(yōu)勢。作為米哈游的最大股東,他將游戲開發(fā)中積累的“人類表演學”經(jīng)驗帶入了AI領域。與字節(jié)跳動依賴海量泛娛樂數(shù)據(jù)不同,Anuttacon更注重數(shù)據(jù)的結構化和精細化。例如,LPM 1.0的“身份感知參考圖像管線”不僅需要照片,還需全局外觀、多視角圖像甚至表情范例。這種對表演邏輯的深度解構,使得模型在角色表現(xiàn)力上達到了電影級質(zhì)感。
在商業(yè)策略上,Anuttacon選擇了完全不開源的路線。LPM 1.0不僅不公開模型權重和源代碼,也暫不提供API或產(chǎn)品服務。這一決策源于其技術壁壘的獨特性——模型不僅是一套算法,更是一套完整的視覺引擎,能夠生成穩(wěn)定、實時、長效的交互式數(shù)字化角色。在當前競爭格局下,這種能力被視為掌握虛擬世界的“唯一門票”。
然而,高算力需求仍是LPM 1.0面臨的挑戰(zhàn)。盡管經(jīng)過優(yōu)化,單GPU約0.35秒可處理1秒視頻,但在大規(guī)模并發(fā)場景下,硬件成本和運維壓力依然巨大。Anuttacon此前推出的買斷制游戲《星之低語》雖以AI實時交互為核心,但因?qū)υ捝舷挛某薪訂栴}未能覆蓋算力成本,33.99元的定價也難以支撐長期運營。這表明,C端市場的高價值產(chǎn)品策略仍需驗證。
相比之下,B端場景對LPM的需求更為迫切。虛擬主播、AI導師、客服等領域?qū)﹂L時間穩(wěn)定性有剛需,而LPM驅(qū)動的AI角色可7天24小時運行,且無需昂貴的動捕設備,綜合成本優(yōu)勢顯著。若將LPM作為UGC平臺的基礎設施,用戶僅需提供照片和文本即可生成表演,將大幅降低內(nèi)容創(chuàng)作門檻,可能催生全新的互動媒體形式。
LPM 1.0的推出,標志著AI視頻生成領域從“畫質(zhì)競爭”轉(zhuǎn)向“交互深度”的新階段。蔡浩宇的商業(yè)野心不僅限于米哈游,更在于通過技術差異化在AI領域開辟新賽道。當行業(yè)還在追求更高像素時,Anuttacon已通過實時生成的呼吸感和微表情,開啟了虛擬角色在線交互的新時代。













