全模態時代來臨：從Google Omni到Minimax，誰將引領AI新變革？

發布時間：2026-05-20 13:21 來源：互聯網作者：江紫萱

在Google I/O大會前夕，科技圈迎來了一則重磅消息：Google正式推出Gemini Omni，這款被外界視為AI領域“全能選手”的新產品，憑借其多模態交互能力迅速成為焦點。與傳統AI工具聚焦單一任務不同，Omni通過整合文本、圖像、視頻、音頻等多種模態，試圖構建一個“一站式”生產力入口，重新定義了AI Agent的邊界。

Omni的核心突破體現在兩個層面。其一，它支持通過自然語言指令直接生成完整教學視頻。例如，用戶僅需輸入“一位教授在黑板上推導三角恒等式并同步講解”，系統便能自動生成包含粉筆動作、公式書寫、語音解釋的動態視頻，無需分步驟操作或反復修正。這一能力背后，是AI對物理空間關系、邏輯推理和內容準確性的深度理解，而非簡單的畫面拼接。其二，Omni將Google分散的AI能力整合至單一對話框中，用戶可同時完成寫作、繪圖、視頻剪輯、跨任務記憶等操作，徹底告別多工具切換的繁瑣流程。這種設計直擊企業級用戶的痛點——此前，某頭部大廠引入AI編碼工具后，雖提升了交付速度，卻因需求質量參差不齊導致預算超支，暴露出單一模態工具的局限性。

市場對“全模態”的期待并非空穴來風。以視頻制作為例，傳統流程需依次調用文本模型生成腳本、圖像模型設計封面、視頻工具剪輯畫面、音樂模型匹配配樂，任何一個環節出錯都需推倒重來。而全模態系統可同步處理多種信息形態，顯著降低試錯成本。Google的轉型更具象征意義：其此前將視頻生成（Veo）、文本處理（Gemini）、圖像生成（Imagen）拆分為獨立產品，而Omni的推出標志著公司正式押注統一架構，回應了業界對“AI能否真正理解復雜世界”的質疑。

在國內市場，Minimax成為少數在全模態領域與谷歌正面競爭的獨立AI公司。其M2系列模型在2026年初的Token用量較2025年底激增6倍，每分鐘處理量（TPM）以每周10%-20%的速度增長，顯示出強勁的市場需求。更引人注目的是其商業模式：通過優化推理服務器配置，Minimax實現單臺設備每分鐘1美元營收，而運營成本不足0.3美元，單位經濟效益遠超行業平均水平。這種“低成本、高毛利”的特性，使其在無需依賴廣告投放的情況下，僅靠工具價值便實現用戶自發增長——2025年營銷費用同比下降40.3%，而毛利率從12.2%提升至25.4%。

資本市場的反應印證了全模態的戰略價值。摩根士丹利預測，Minimax的年化經常性收入（ARR）將在2026年底突破10億美元，與國際巨頭處于同一量級。其背后的邏輯在于，全模態能力可同時覆蓋企業級（ToB）和消費級（ToC）市場：企業用戶需要高效處理跨模態任務，而個人用戶則期待通過單一入口完成創作、辦公等場景需求。Minimax的全球化布局進一步放大了這一優勢——相比多數AI公司僅聚焦單一市場，其雙線作戰策略顯著提升了增長天花板。

技術層面，Minimax的“模型+工程層”雙輪驅動模式成為關鍵護城河。以視頻生成為例，其下一代模型Hailuo 3預計將大幅提升理解能力，并通過工程優化降低使用門檻，使非專業用戶也能輕松創作。在辦公場景中，M3模型將強化AI Agent的多步驟任務規劃能力，配合創新工具MaxHermes，實現從代碼生成到日程管理、跨應用協作的擴展。瑞銀分析指出，多模態訓練產生的視覺理解能力可反哺文本模型，推動整體智能水平躍升，這種“1+1>2”的效應將成為Minimax的核心競爭力。

隨著Gemini Omni的發布，全模態競爭已從技術概念進入商業化落地階段。谷歌的轉型與Minimax的崛起，共同指向一個趨勢：未來的AI Agent必須具備“看、聽、說、寫、畫”的綜合能力，才能適應真實世界的復雜性。當市場從“流量競爭”轉向“模型競爭”，那些能同時平衡技術深度與商業效率的玩家，或將主導下一輪增長周期。

更多>同類內容