英偉達近日正式推出了一款名為“Nemotron 3 Nano Omni”的開放式多模態(tài)模型,旨在為企業(yè)和開發(fā)者提供更高效、精準(zhǔn)的AI解決方案。該模型通過整合視頻、音頻、圖像和文本的推理能力,使智能體能夠以更快的速度和更高的智能水平做出響應(yīng)。
據(jù)介紹,Nemotron 3 Nano Omni采用了創(chuàng)新的30B-A3B混合專家架構(gòu),將視覺和音頻編碼器直接集成到模型中,無需依賴單獨的感知模型。這一設(shè)計顯著提升了大規(guī)模推理的效率,同時保持了強大的多模態(tài)感知精度。英偉達表示,該模型在復(fù)雜文檔智能、視頻和音頻理解等多個領(lǐng)域表現(xiàn)出色,并在六大權(quán)威排行榜中位居榜首。
在性能方面,Nemotron 3 Nano Omni展現(xiàn)了卓越的優(yōu)勢。其AI系統(tǒng)的吞吐量是其他具有相同交互性的開放式全向模型的9倍,同時實現(xiàn)了更低的成本和更好的可擴展性。這一突破使得智能體在處理全高清屏幕錄像等任務(wù)時,能夠以前所未有的速度和準(zhǔn)確性完成解讀。
一家已采用該模型的公司H Company的首席執(zhí)行官Gautier Cloix表示:“基于Nemotron 3 Nano Omni,我們的智能體現(xiàn)在能夠快速解讀全高清屏幕錄像,這在以前是無法實現(xiàn)的。這不僅僅是速度的提升,更是智能體實時感知和與數(shù)字環(huán)境交互方式的根本性轉(zhuǎn)變。”
英偉達還強調(diào),Nemotron 3 Nano Omni在代理系統(tǒng)中具有高度的靈活性。它可以與專有云模型、其他英偉達Nemotron開放模型,甚至其他提供商的專有模型協(xié)同工作,為代理工作流程的子代理提供支持。這種開放性和兼容性使得該模型能夠適應(yīng)多種應(yīng)用場景,滿足不同企業(yè)的需求。
自推出以來,Nemotron 3系列模型(包括Nano、Super和Ultra型號)受到了廣泛關(guān)注。據(jù)統(tǒng)計,該系列模型在過去一年中的下載量已超過5000萬次,顯示出其在AI領(lǐng)域的強大影響力和市場需求。




















