當全球AI視頻生成領(lǐng)域還在為提升畫質(zhì)、延長時長而激烈競爭時,一家名為Xmax AI的初創(chuàng)公司正以顛覆性創(chuàng)新重新定義行業(yè)規(guī)則。這家由前華為"天才少年"領(lǐng)銜的團隊,近日推出了全球首個實現(xiàn)虛實融合的實時交互視頻生成模型X1,通過毫秒級響應(yīng)與低門檻手勢操作,將AI視頻從"被動觀看"推向"主動共創(chuàng)"的新紀元。
在傳統(tǒng)AI視頻生成場景中,用戶往往需要輸入復(fù)雜指令,經(jīng)歷漫長渲染等待,最終獲得的仍是單向輸出的預(yù)制內(nèi)容。X1模型徹底打破了這種桎梏——通過手機攝像頭對準桌面,用戶選取的滾球獸照片可瞬間"躍出"屏幕,不僅會隨著手勢撫摸轉(zhuǎn)頭蹭手,被輕捏時還會產(chǎn)生Q彈物理反饋,甚至能被穩(wěn)穩(wěn)托在掌心。這種突破次元壁的交互體驗,得益于團隊獨創(chuàng)的端到端流式重渲染架構(gòu)與幀級自回歸DiT模型,將擴散采樣速度提升百倍的同時,實現(xiàn)了對捏、拖拽等復(fù)雜手勢的精準解析。
技術(shù)突破的背后是跨學(xué)科團隊的協(xié)同攻堅。來自清華KEG實驗室、香港科技大學(xué)(廣州)及字節(jié)跳動的頂尖人才,構(gòu)建了統(tǒng)一交互模型架構(gòu),融合空間三維關(guān)系與屏幕二維操作。針對虛實融合數(shù)據(jù)稀缺的難題,團隊開發(fā)出半自動化合成管線,既筑牢技術(shù)壁壘,又為我國AI視頻領(lǐng)域儲備了關(guān)鍵數(shù)字資產(chǎn)。這種硬核實力使X1在四大核心場景中展現(xiàn)驚人表現(xiàn):上傳任意角色圖可實現(xiàn)次元互動,撫摸屏幕中的兔子會觸發(fā)轉(zhuǎn)頭蹭手的動態(tài)響應(yīng);選擇梵高畫作或樂高積木圖,現(xiàn)實場景可實時轉(zhuǎn)化為風(fēng)格化世界;拖拽照片中角色的耳朵或嘴角,靜態(tài)圖像即刻產(chǎn)生搖頭微笑的生動反應(yīng);對準朋友選擇Emoji,還能瞬間生成魔性動態(tài)表情包。
相較于2024年全球AI視頻生成市場6.148億美元的規(guī)模,Xmax AI選擇了一條更具挑戰(zhàn)性的道路。當Sora、Runway等巨頭仍在影視廣告領(lǐng)域爭奪專業(yè)用戶時,X1模型通過技術(shù)演示應(yīng)用X-cam已向大眾開放體驗。用戶無需復(fù)雜操作,僅憑直覺手勢就能讓幻想掙脫屏幕束縛,這種"人人可玩"的交互范式,或許正預(yù)示著下一代內(nèi)容引擎的雛形。正如團隊Slogan所言"Play the World through AI",當技術(shù)突破想象邊界,每個普通用戶都能成為數(shù)字世界的創(chuàng)造者。












