百度文心Moment大會啟幕文心5.0正式發(fā)布引領(lǐng)AI應(yīng)用新變革

發(fā)布時間：2026-01-23 06:02 來源：快訊作者：孫雅

百度近日正式推出原生全模態(tài)大模型文心5.0，標志著其在人工智能領(lǐng)域的技術(shù)突破邁入新階段。該模型采用統(tǒng)一的自回歸架構(gòu)進行原生全模態(tài)建模，將文本、圖像、視頻、音頻等多源數(shù)據(jù)在同一框架下聯(lián)合訓(xùn)練，實現(xiàn)了真正的多模態(tài)統(tǒng)一理解與生成。與傳統(tǒng)的“后期融合”方案不同，這一技術(shù)路線使多模態(tài)特征在統(tǒng)一架構(gòu)下充分融合，避免了拼接式處理的局限性。

文心5.0的參數(shù)規(guī)模達2.4萬億，通過超大規(guī)模混合專家結(jié)構(gòu)實現(xiàn)超稀疏激活，激活參數(shù)比低于3%，在保持強大能力的同時顯著提升了推理效率。模型還引入了基于思維鏈和行動鏈的端到端多輪強化學(xué)習(xí)訓(xùn)練方法，結(jié)合大規(guī)模工具環(huán)境合成的長程任務(wù)軌跡數(shù)據(jù)，大幅增強了智能體和工具調(diào)用能力。在40余項權(quán)威基準測試中，其語言與多模態(tài)理解能力超越Gemini-2.5-Pro、GPT-5-High等國際主流模型，圖像與視頻生成能力與垂直領(lǐng)域?qū)＞Ｐ拖喈敚w處于全球領(lǐng)先水平。

應(yīng)用層面，文心5.0已構(gòu)建起覆蓋通用場景與行業(yè)需求的模型矩陣。矩陣模型包括文心Lite、視頻大模型和語音大模型，面向產(chǎn)品級應(yīng)用快速落地；專精模型則針對搜索、電商、數(shù)字人等垂直領(lǐng)域開發(fā)，如搜索閃電專精模型、電商蒸汽機模型等。百度應(yīng)用模型研發(fā)部負責(zé)人透露，基于聲音Token的端到端合成大模型通過離散語音表示、MoE韻律建模和Unet自重構(gòu)特征等技術(shù)，實現(xiàn)了高質(zhì)量語音合成；5分鐘直播技術(shù)通過少量音色采樣和韻律模式匹配，使合成語音具備直播帶貨所需的情緒感染力；實時交互數(shù)字人技術(shù)采用三態(tài)Token聯(lián)動架構(gòu)，突破傳統(tǒng)模態(tài)串聯(lián)模式，實現(xiàn)文本、語音、視頻的流式控制，百度羅永浩數(shù)字人即基于此技術(shù)開發(fā)。

為推動大模型在產(chǎn)業(yè)中的落地，百度千帆平臺推出Agent Infra解決方案，提供包括文心5.0在內(nèi)的150余個全場景模型服務(wù)，集成百度AI搜索等工具及MCP和Agent工具鏈，結(jié)合數(shù)據(jù)管理和企業(yè)級服務(wù)，為企業(yè)提供全周期、多場景的業(yè)務(wù)運行環(huán)境。目前，千帆平臺已累計開發(fā)超130萬個Agents，以百度AI搜索為代表的工具日均調(diào)用量突破千萬次。此前，百度數(shù)字人技術(shù)已在直播帶貨等領(lǐng)域廣泛應(yīng)用，2025年羅永浩數(shù)字人直播曾創(chuàng)下行業(yè)紀錄。

作為國內(nèi)大模型領(lǐng)域的先行者，百度正通過“芯云模體”全棧自研生態(tài)閉環(huán)持續(xù)探索AI賦能行業(yè)的路徑。該生態(tài)以芯片為底座、智能云為平臺框架、模型為支撐，形成覆蓋硬件、算法、應(yīng)用的完整鏈條，為AI技術(shù)從實驗室走向真實場景提供了可復(fù)制的解決方案。當前，全球AI行業(yè)正加速向應(yīng)用層拓展，如何讓技術(shù)真正服務(wù)于產(chǎn)業(yè)需求成為關(guān)鍵課題，百度的實踐為這一方向提供了重要參考。

更多>同類內(nèi)容