xAI公司正式推出其最新視頻音頻生成模型Grok Imagine 1.0版本,這款被描述為"迄今為止最強(qiáng)大"的模型現(xiàn)已全面上線。該系統(tǒng)支持文本生成視頻和圖像生成視頻兩種模式,單次生成時(shí)長(zhǎng)可達(dá)10秒,輸出分辨率達(dá)到720P標(biāo)準(zhǔn),特別在音頻效果方面實(shí)現(xiàn)了突破性提升。
在創(chuàng)意表現(xiàn)方面,模型能夠精準(zhǔn)捕捉用戶意圖。例如生成AI版"馴龍高手"時(shí),不僅呈現(xiàn)了豐富的細(xì)節(jié),還保持了畫面連貫性。音頻系統(tǒng)展現(xiàn)出卓越表現(xiàn),角色語音情感飽滿且富有表現(xiàn)力,能夠與場(chǎng)景節(jié)奏完美同步。測(cè)試中生成的毛茸怪獸躲貓貓場(chǎng)景,其互動(dòng)音效與語氣生動(dòng)自然,獲得專業(yè)人士高度評(píng)價(jià)。
該系統(tǒng)具備強(qiáng)大的日常創(chuàng)作能力,既能讓靜態(tài)老照片動(dòng)態(tài)化,也能快速生成熱點(diǎn)梗圖和短視頻。通過片段串聯(lián)功能,用戶可輕松制作完整短片作品。在測(cè)試期間(最近30天),系統(tǒng)已累計(jì)生成12.45億條視頻內(nèi)容,展現(xiàn)出驚人的產(chǎn)出效率。
核心功能分為視頻生成與視頻剪輯兩大模塊。生成方面具備電影級(jí)運(yùn)鏡能力,畫面銜接流暢無卡頓,支持多主體生成且主體間互動(dòng)自然。系統(tǒng)能準(zhǔn)確理解復(fù)雜指令,對(duì)用戶創(chuàng)意的還原度極高,同時(shí)支持橫豎屏自由切換,適配不同平臺(tái)需求。剪輯功能允許用戶添加/刪除視頻元素、替換對(duì)象,甚至可以用真人動(dòng)作驅(qū)動(dòng)虛擬角色生成動(dòng)畫。
場(chǎng)景編輯功能同樣強(qiáng)大,可自由切換秋日、冬日、薄霧等氛圍效果,支持物體顏色和細(xì)節(jié)修改,還能為現(xiàn)有素材轉(zhuǎn)換視覺風(fēng)格。特別值得關(guān)注的是,系統(tǒng)能將靜態(tài)黑白線稿轉(zhuǎn)化為鮮活動(dòng)畫,為創(chuàng)作者提供全新表達(dá)方式。
在性能優(yōu)化方面,系統(tǒng)圍繞延遲和成本控制進(jìn)行重點(diǎn)突破。AI基準(zhǔn)測(cè)試機(jī)構(gòu)Artificial Analysis的評(píng)估顯示,該模型在文生視頻領(lǐng)域綜合排名第一,特別是在成本和延遲指標(biāo)上表現(xiàn)優(yōu)異。另一機(jī)構(gòu)LMArena的對(duì)比測(cè)試也證實(shí),其在響應(yīng)速度和資源消耗方面具有明顯優(yōu)勢(shì)。在圖生視頻領(lǐng)域,系統(tǒng)同樣保持高評(píng)分、低延遲、低成本的領(lǐng)先地位。
針對(duì)視頻編輯能力的專業(yè)測(cè)試中,選取包含七個(gè)語義維度的IVEBench數(shù)據(jù)庫作為評(píng)估標(biāo)準(zhǔn)。結(jié)果顯示,系統(tǒng)在整體表現(xiàn)、指令遵循度和效果一致性三個(gè)核心維度均領(lǐng)先同類產(chǎn)品。目前該模型的API已開放,開發(fā)者可訪問官網(wǎng)體驗(yàn)完整功能。
用戶創(chuàng)作案例顯示,系統(tǒng)能生成眼睛會(huì)眨動(dòng)的機(jī)器人舞蹈視頻,也能還原湯姆追杰瑞的經(jīng)典動(dòng)畫場(chǎng)景,其細(xì)膩的表情動(dòng)作處理獲得廣泛好評(píng)。第一視角畫面生成等復(fù)雜需求同樣得到滿足,展現(xiàn)出強(qiáng)大的技術(shù)實(shí)力。













