在Google I/O大會前夕,科技圈迎來了一則重磅消息:Google正式推出Gemini Omni,這款被外界視為AI領域“全能選手”的新產品,憑借其多模態交互能力迅速成為焦點。與傳統AI工具聚焦單一任務不同,Omni通過整合文本、圖像、視頻、音頻等多種模態,試圖構建一個“一站式”生產力入口,重新定義了AI Agent的邊界。
Omni的核心突破體現在兩個層面。其一,它支持通過自然語言指令直接生成完整教學視頻。例如,用戶僅需輸入“一位教授在黑板上推導三角恒等式并同步講解”,系統便能自動生成包含粉筆動作、公式書寫、語音解釋的動態視頻,無需分步驟操作或反復修正。這一能力背后,是AI對物理空間關系、邏輯推理和內容準確性的深度理解,而非簡單的畫面拼接。其二,Omni將Google分散的AI能力整合至單一對話框中,用戶可同時完成寫作、繪圖、視頻剪輯、跨任務記憶等操作,徹底告別多工具切換的繁瑣流程。這種設計直擊企業級用戶的痛點——此前,某頭部大廠引入AI編碼工具后,雖提升了交付速度,卻因需求質量參差不齊導致預算超支,暴露出單一模態工具的局限性。
市場對“全模態”的期待并非空穴來風。以視頻制作為例,傳統流程需依次調用文本模型生成腳本、圖像模型設計封面、視頻工具剪輯畫面、音樂模型匹配配樂,任何一個環節出錯都需推倒重來。而全模態系統可同步處理多種信息形態,顯著降低試錯成本。Google的轉型更具象征意義:其此前將視頻生成(Veo)、文本處理(Gemini)、圖像生成(Imagen)拆分為獨立產品,而Omni的推出標志著公司正式押注統一架構,回應了業界對“AI能否真正理解復雜世界”的質疑。
在國內市場,Minimax成為少數在全模態領域與谷歌正面競爭的獨立AI公司。其M2系列模型在2026年初的Token用量較2025年底激增6倍,每分鐘處理量(TPM)以每周10%-20%的速度增長,顯示出強勁的市場需求。更引人注目的是其商業模式:通過優化推理服務器配置,Minimax實現單臺設備每分鐘1美元營收,而運營成本不足0.3美元,單位經濟效益遠超行業平均水平。這種“低成本、高毛利”的特性,使其在無需依賴廣告投放的情況下,僅靠工具價值便實現用戶自發增長——2025年營銷費用同比下降40.3%,而毛利率從12.2%提升至25.4%。
資本市場的反應印證了全模態的戰略價值。摩根士丹利預測,Minimax的年化經常性收入(ARR)將在2026年底突破10億美元,與國際巨頭處于同一量級。其背后的邏輯在于,全模態能力可同時覆蓋企業級(ToB)和消費級(ToC)市場:企業用戶需要高效處理跨模態任務,而個人用戶則期待通過單一入口完成創作、辦公等場景需求。Minimax的全球化布局進一步放大了這一優勢——相比多數AI公司僅聚焦單一市場,其雙線作戰策略顯著提升了增長天花板。
技術層面,Minimax的“模型+工程層”雙輪驅動模式成為關鍵護城河。以視頻生成為例,其下一代模型Hailuo 3預計將大幅提升理解能力,并通過工程優化降低使用門檻,使非專業用戶也能輕松創作。在辦公場景中,M3模型將強化AI Agent的多步驟任務規劃能力,配合創新工具MaxHermes,實現從代碼生成到日程管理、跨應用協作的擴展。瑞銀分析指出,多模態訓練產生的視覺理解能力可反哺文本模型,推動整體智能水平躍升,這種“1+1>2”的效應將成為Minimax的核心競爭力。
隨著Gemini Omni的發布,全模態競爭已從技術概念進入商業化落地階段。谷歌的轉型與Minimax的崛起,共同指向一個趨勢:未來的AI Agent必須具備“看、聽、說、寫、畫”的綜合能力,才能適應真實世界的復雜性。當市場從“流量競爭”轉向“模型競爭”,那些能同時平衡技術深度與商業效率的玩家,或將主導下一輪增長周期。























