谷歌Gemini Omni模型發布：跨模態編輯新突破，自然語言指令輕松改大片

發布時間：2026-05-20 21:15 來源：快訊作者：蘇婉清

在最新一屆Google I/O開發者大會上，谷歌推出了具有突破性意義的Gemini Omni多模態人工智能模型。這款模型不僅能夠處理文本、圖像、音頻和視頻等多種輸入形式，還具備跨模態內容生成與編輯能力，標志著人工智能技術在多媒體處理領域邁出了重要一步。

據谷歌介紹，Gemini Omni在音頻處理方面已實現初步突破。雖然目前僅支持語音輸入功能，但公司計劃在短期內擴展更多類型的音頻輸入能力，進一步豐富用戶交互方式。這一特性使其在語音助手、智能客服等場景中具有廣泛應用潛力。

該模型的核心優勢體現在其深度視頻編輯功能上。用戶只需通過自然語言指令，即可對視頻內容進行精細修改，包括添加或刪除特定對象、調整攝像機視角、改變場景環境與藝術風格等操作。這種交互方式顯著降低了視頻創作的專業門檻，使普通用戶也能輕松完成高質量視頻制作。

在內容生成質量方面，Gemini Omni展現出強大的邏輯推理能力。通過對物理規律的理解和跨學科知識的整合，模型生成的視頻在角色行為、場景轉換和視覺敘事上保持高度連貫性，甚至能夠根據上下文自動推演后續情節發展。更引人注目的是，用戶可以創建個性化數字分身，并將其自然融入視頻場景中。

針對生成內容的安全性問題，谷歌同步推出了技術保障措施。所有通過Gemini Omni生成的視頻都會自動嵌入SynthID數字水印，這種隱形標記可通過Google搜索和Chrome瀏覽器進行驗證，有效防止虛假信息的傳播。這一舉措體現了谷歌在推動AI技術創新的同時，對內容真實性的高度重視。

在產品落地方面，首發版本Gemini Omni Flash已通過Gemini應用向個人用戶開放。擁有Google AI Plus/Pro/Ultra訂閱服務的用戶，以及YouTube Shorts混剪創作者和YouTube Create應用用戶，均可免費體驗這項新技術。企業客戶稍后將獲得API接口權限，以便將模型能力集成到自有產品中。

Google DeepMind負責人哈薩比斯在發布會上強調，Gemini Omni代表了人工智能發展的重要方向。通過整合多模態處理能力和復雜場景理解，該模型正在推動AI系統從執行特定任務向具備通用認知能力演進，為構建更智能的人機協作模式奠定了基礎。

更多>同類內容