成人美女黄网站免费|哔哩哔哩免费观看在线视频|freexx老女人|欧美精品三区|近的2019中文字幕在线|97中文字幕一区二区|日本jazz护士

巨人財(cái)經(jīng) - 專業(yè)科技行業(yè)財(cái)經(jīng)媒體

Soul開源SoulX-FlashTalk:14B大模型助力數(shù)字人亞秒級(jí)實(shí)時(shí)生成與全場(chǎng)景應(yīng)用

   發(fā)布時(shí)間:2026-05-21 15:11 作者:胡穎

近日,Soul App AI團(tuán)隊(duì)(Soul AI Lab)宣布開源其自主研發(fā)的實(shí)時(shí)數(shù)字人生成模型SoulX-FlashTalk,為行業(yè)帶來(lái)突破性技術(shù)方案。該模型以140億參數(shù)規(guī)模實(shí)現(xiàn)0.87秒亞秒級(jí)響應(yīng)、32幀/秒高幀率輸出,并支持超長(zhǎng)視頻穩(wěn)定生成,標(biāo)志著大參數(shù)量數(shù)字人技術(shù)正式進(jìn)入可商用階段。這一成果不僅解決了傳統(tǒng)數(shù)字人技術(shù)中延遲高、畫面卡頓等痛點(diǎn),更通過多項(xiàng)創(chuàng)新技術(shù)重新定義了實(shí)時(shí)交互體驗(yàn)標(biāo)準(zhǔn)。

技術(shù)突破方面,SoulX-FlashTalk通過全棧加速引擎實(shí)現(xiàn)性能躍升。其首幀生成延遲較行業(yè)平均水平降低72%,在視頻通話、直播互動(dòng)等場(chǎng)景中可實(shí)現(xiàn)"零感知"響應(yīng)。模型采用14B超大DiT架構(gòu),推理吞吐量達(dá)32fps,遠(yuǎn)超直播行業(yè)25fps的基準(zhǔn)要求,確保畫面流暢度。針對(duì)長(zhǎng)視頻生成中的身份漂移問題,團(tuán)隊(duì)研發(fā)的自糾正雙向蒸餾技術(shù)通過多步回溯機(jī)制實(shí)時(shí)修正誤差,配合雙向注意力機(jī)制同時(shí)參考前后文信息,使數(shù)字人在超長(zhǎng)直播中保持口型、面部特征與背景的高度一致。

在動(dòng)作生成領(lǐng)域,該模型突破傳統(tǒng)面部驅(qū)動(dòng)局限,支持音頻驅(qū)動(dòng)的全身動(dòng)態(tài)生成。通過14B DiT建模能力,模型可精準(zhǔn)呈現(xiàn)手部細(xì)節(jié),消除畸形與模糊現(xiàn)象,動(dòng)作自然度提升40%的同時(shí)保持99.22%的身份一致性。技術(shù)實(shí)現(xiàn)上,團(tuán)隊(duì)采用兩階段訓(xùn)練策略:第一階段通過動(dòng)態(tài)長(zhǎng)寬比分桶微調(diào)優(yōu)化時(shí)空適配性;第二階段運(yùn)用DMD框架壓縮采樣步數(shù),結(jié)合隨機(jī)截?cái)嗖呗詫?shí)現(xiàn)顯存高效利用。全棧加速引擎集成混合序列并行、算子級(jí)優(yōu)化等創(chuàng)新方案,最終達(dá)成亞秒級(jí)延遲與32fps穩(wěn)定輸出的雙重突破。

實(shí)測(cè)數(shù)據(jù)顯示,在TalkBench-Short評(píng)測(cè)中,SoulX-FlashTalk的ASE評(píng)分達(dá)3.51、IQA評(píng)分4.79,口型同步指標(biāo)Sync-C為1.47;長(zhǎng)視頻生成場(chǎng)景下Sync-C提升至1.61,且全程維持32fps輸出。這些數(shù)據(jù)全面領(lǐng)先行業(yè)主流模型,特別是在電商直播、短視頻制作等商用場(chǎng)景中,可有效解決畫質(zhì)模糊、口型錯(cuò)位等問題,幫助企業(yè)降低60%以上的運(yùn)營(yíng)成本。此前,該團(tuán)隊(duì)開源的語(yǔ)音合成模型SoulX-Podcast已獲HuggingFace TTS趨勢(shì)榜首位,GitHub星標(biāo)數(shù)突破3100,此次開源標(biāo)志著Soul在AI+社交領(lǐng)域的技術(shù)布局進(jìn)入新階段。

 
 
更多>同類內(nèi)容
全站最新
熱門內(nèi)容
本欄最新