百度近日正式推出原生全模態(tài)大模型文心5.0,標志著其在人工智能領(lǐng)域的技術(shù)突破邁入新階段。該模型采用統(tǒng)一的自回歸架構(gòu)進行原生全模態(tài)建模,將文本、圖像、視頻、音頻等多源數(shù)據(jù)在同一框架下聯(lián)合訓(xùn)練,實現(xiàn)了真正的多模態(tài)統(tǒng)一理解與生成。與傳統(tǒng)的“后期融合”方案不同,這一技術(shù)路線使多模態(tài)特征在統(tǒng)一架構(gòu)下充分融合,避免了拼接式處理的局限性。
文心5.0的參數(shù)規(guī)模達2.4萬億,通過超大規(guī)模混合專家結(jié)構(gòu)實現(xiàn)超稀疏激活,激活參數(shù)比低于3%,在保持強大能力的同時顯著提升了推理效率。模型還引入了基于思維鏈和行動鏈的端到端多輪強化學(xué)習(xí)訓(xùn)練方法,結(jié)合大規(guī)模工具環(huán)境合成的長程任務(wù)軌跡數(shù)據(jù),大幅增強了智能體和工具調(diào)用能力。在40余項權(quán)威基準測試中,其語言與多模態(tài)理解能力超越Gemini-2.5-Pro、GPT-5-High等國際主流模型,圖像與視頻生成能力與垂直領(lǐng)域?qū)>P拖喈敚w處于全球領(lǐng)先水平。
應(yīng)用層面,文心5.0已構(gòu)建起覆蓋通用場景與行業(yè)需求的模型矩陣。矩陣模型包括文心Lite、視頻大模型和語音大模型,面向產(chǎn)品級應(yīng)用快速落地;專精模型則針對搜索、電商、數(shù)字人等垂直領(lǐng)域開發(fā),如搜索閃電專精模型、電商蒸汽機模型等。百度應(yīng)用模型研發(fā)部負責(zé)人透露,基于聲音Token的端到端合成大模型通過離散語音表示、MoE韻律建模和Unet自重構(gòu)特征等技術(shù),實現(xiàn)了高質(zhì)量語音合成;5分鐘直播技術(shù)通過少量音色采樣和韻律模式匹配,使合成語音具備直播帶貨所需的情緒感染力;實時交互數(shù)字人技術(shù)采用三態(tài)Token聯(lián)動架構(gòu),突破傳統(tǒng)模態(tài)串聯(lián)模式,實現(xiàn)文本、語音、視頻的流式控制,百度羅永浩數(shù)字人即基于此技術(shù)開發(fā)。
為推動大模型在產(chǎn)業(yè)中的落地,百度千帆平臺推出Agent Infra解決方案,提供包括文心5.0在內(nèi)的150余個全場景模型服務(wù),集成百度AI搜索等工具及MCP和Agent工具鏈,結(jié)合數(shù)據(jù)管理和企業(yè)級服務(wù),為企業(yè)提供全周期、多場景的業(yè)務(wù)運行環(huán)境。目前,千帆平臺已累計開發(fā)超130萬個Agents,以百度AI搜索為代表的工具日均調(diào)用量突破千萬次。此前,百度數(shù)字人技術(shù)已在直播帶貨等領(lǐng)域廣泛應(yīng)用,2025年羅永浩數(shù)字人直播曾創(chuàng)下行業(yè)紀錄。
作為國內(nèi)大模型領(lǐng)域的先行者,百度正通過“芯云模體”全棧自研生態(tài)閉環(huán)持續(xù)探索AI賦能行業(yè)的路徑。該生態(tài)以芯片為底座、智能云為平臺框架、模型為支撐,形成覆蓋硬件、算法、應(yīng)用的完整鏈條,為AI技術(shù)從實驗室走向真實場景提供了可復(fù)制的解決方案。當前,全球AI行業(yè)正加速向應(yīng)用層拓展,如何讓技術(shù)真正服務(wù)于產(chǎn)業(yè)需求成為關(guān)鍵課題,百度的實踐為這一方向提供了重要參考。






















