成人美女黄网站免费|哔哩哔哩免费观看在线视频|freexx老女人|欧美精品三区|近的2019中文字幕在线|97中文字幕一区二区|日本jazz护士

巨人財(cái)經(jīng) - 專業(yè)科技行業(yè)財(cái)經(jīng)媒體

谷歌I/O前夕Veo 4泄露,AI視頻迎敘事革命,多機(jī)位與音頻同步成亮點(diǎn)

   發(fā)布時(shí)間:2026-05-17 23:22 作者:柳晴雪

谷歌I/O大會即將拉開帷幕,一場關(guān)于AI視頻生成領(lǐng)域的重大變革已初現(xiàn)端倪。近日,谷歌即將推出的Veo 4(或稱Gemini Omni)相關(guān)功能提前曝光,引發(fā)行業(yè)廣泛關(guān)注,其展現(xiàn)出的強(qiáng)大能力或?qū)⒅厮苷麄€(gè)AI視頻生成賽道。

此前,AI視頻生成領(lǐng)域雖已有諸多成果,但大多局限于生成單一長鏡頭視頻。以Sora為例,其雖能生成長達(dá)60秒的視頻,然而鏡頭始終保持連續(xù),無法實(shí)現(xiàn)多機(jī)位切換。這背后的難題在于,AI要實(shí)現(xiàn)“切鏡頭”,需在同一場景、同一時(shí)刻,從不同視角重新生成畫面,同時(shí)保證服裝顏色、物品位置、人物表情等各方面的一致性,這對物理、空間和時(shí)間的一致性提出了極高要求,長期以來一直是行業(yè)難以攻克的壁壘。

但此次曝光的Veo 4似乎打破了這一僵局。網(wǎng)友推測,Veo 4能夠生成完整的多角度場景,在保持畫面連貫性的同時(shí),流暢切換透視角度。這意味著AI視頻生成從“畫匠”層面躍升至擁有空間邏輯的“導(dǎo)演”層面,實(shí)現(xiàn)了從“拍攝一個(gè)鏡頭”到“拍攝一場戲”的質(zhì)變。部分泄露示例中,盡管仍存在一些連貫性問題,但多機(jī)位場景的同步效果已令人印象深刻。爆料人Pankaj Kumar甚至大膽推測,谷歌具備輕松生成15秒視頻的能力,只是受限于算力,目前更聚焦于效率提升。

除了多機(jī)位這一突破,Veo 4在音頻同步方面也有顯著升級。據(jù)了解,Veo 4原生支持音頻同步功能,不僅能實(shí)現(xiàn)對話、環(huán)境音與畫面的同步,還能根據(jù)畫面情境自動生成背景音樂。其實(shí),Veo 3就已具備原生音頻生成能力,可同步生成腳步聲、對話聲、環(huán)境噪音等,但存在音質(zhì)欠佳以及缺乏情境化配樂的問題。若Veo 4真能如爆料所言,實(shí)現(xiàn)原生生成情境化背景音樂,那么AI視頻將真正實(shí)現(xiàn)“自帶BGM”,從素材生產(chǎn)工具升級為可直接輸出成片的敘事生產(chǎn)工具。

Veo 4此次泄露的時(shí)間點(diǎn)頗為微妙,正值OpenAI的Sora App停服之際?;仡橲ora的發(fā)展歷程,可謂充滿坎坷。其推理成本高昂,據(jù)稱每天在100萬到1500萬美元之間,遠(yuǎn)超文本和圖像生成成本,且在整個(gè)生命周期內(nèi)未能有效降低單位成本。同時(shí),用戶留存率低,峰值時(shí)月活躍用戶達(dá)100萬,停服前卻跌破50萬,30天留存率不到8%。在盈利方面,Sora也表現(xiàn)不佳,整個(gè)生命周期內(nèi)App內(nèi)收入約210萬美元,連一天的算力費(fèi)用都難以覆蓋。最終,3月24日Sora官方賬號宣布告別,API也將在9月24日徹底關(guān)閉。在這樣的背景下,谷歌選擇此時(shí)推出Veo 4,無疑是在Sora留下的市場空白上發(fā)力,試圖在AI視頻生成領(lǐng)域占據(jù)領(lǐng)先地位。

此次泄露的信息遠(yuǎn)不止Veo 4。據(jù)悉,谷歌即將推出的多款Gemini模型被意外推送至生產(chǎn)環(huán)境API,包括Gemini 3Flash、3.1全系列(Pro、Flash Image、Lite、TTS)以及專注于高保真音頻生成的Lyria 3 Pro。內(nèi)部文檔還透露,Omni模型將針對所有核心模型推出專門的Agent版本。這表明谷歌計(jì)劃在I/O大會上,將視頻生成、音頻生成以及Agent框架整合展示,全面展現(xiàn)其在AI領(lǐng)域的布局與實(shí)力。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新