谷歌近期在人工智能領域動作頻頻,先是聯合創始人謝爾蓋·布林重啟“創始人模式”,親自帶領精英團隊,致力于提升Gemini在AI編程和自主智能體等關鍵能力,以追趕Anthropic等競爭對手。緊接著,谷歌又在深夜宣布重大更新,推出兩款基于Gemini 3.1 Pro模型的新一代自主研究智能體:Deep Research和Deep Research Max。
這兩款智能體在模型底層強化了推理能力,還積極推動自主研究智能體向企業級和開發者平臺方向發展。它們通過API開放、支持私有數據、后臺異步任務等方式,試圖在“AI研究/分析工具”這一高價值場景中搶占先機,應對來自OpenAI(Hermes)、Perplexity等對手的競爭。這兩款智能體首次允許開發者通過單次API調用,融合開放網絡數據與企業專有信息,在研究報告中直接生成圖表和信息圖,還能通過Model Context Protocol(MCP)連接任意第三方數據源。即日起,它們通過Gemini API的付費套餐以公開預覽版形式開放,可通過谷歌于2025年12月首次推出的Interactions API進行訪問。不過,目前這些新智能體只能通過API使用,普通用戶在Gemini的App里無法使用,即便付費訂閱也不行,這引發了一些用戶的抱怨。
谷歌首席執行官桑達爾·皮查伊(Sundar Pichai)在X上積極宣傳:“當你需要速度和效率時,請使用Deep Research;當你追求最高質量的上下文收集與綜合時,請使用Max版本——它通過擴展測試時計算,達到了DeepSearchQA 93.3%和HLE 54.6%的成績。”
18個月前,谷歌Deep Research的目標是幫助研究生避免被海量瀏覽器標簽頁淹沒,如今卻希望它能取代投資銀行初級分析師的基礎研究工作。這兩個目標之間的差距,以及這項技術能否彌合這一差距,將決定自主研究代理會成為企業軟件領域的變革性產品,還是僅僅成為又一個在基準測試中表現亮眼,卻在實際應用中令人失望的人工智能演示。
谷歌還將這兩款智能體與競對進行了對比。不過,與OpenAI的GPT - 5.4和Anthropic的Opus 4.6比較并不完全公平。GPT - 5.4在自主網絡搜索方面表現出色,但未針對深度研究專門優化,OpenAI有自己的DR智能體,2月更新后切換到了GPT - 5.2。OpenAI最強的搜索模型GPT - 5.4 Pro,谷歌未將其納入對比范圍。根據OpenAI的數據,GPT - 5.4 Pro在智能體搜索基準測試BrowseComp上得分最高可達89.3%,GPT - 5.4得分為82.7%。基于Anthropic自己的報告,Opus 4.6在BrowseComp上得分高于谷歌展示的數值,為84%,且該得分是在關閉推理功能的情況下取得的,模型表現優于谷歌在API基準測試中使用的高強度推理設置。這些差距可能源于測試方法不同,谷歌的數據未必錯誤,但解讀需謹慎,其呈現方式缺乏足夠透明度。
本次發布最具影響力的功能或許是新增對Model Context Protocol(MCP)的支持。MCP是一種新興開放標準,用于將AI模型連接到外部數據源,讓Deep Research能安全查詢私有數據庫、內部文檔庫以及專業第三方數據服務,敏感信息無需離開原始環境。實際應用中,一家對沖基金可同時將Deep Research指向內部交易流數據庫和金融數據終端,要求智能體將兩者與網絡公開信息結合,綜合生成洞見。谷歌正與FactSet、標普(S&P)和PitchBook等公司合作設計其MCP服務端,表明谷歌正尋求與華爾街及更廣泛金融服務行業依賴的數據提供商深度整合。這一功能解決了企業采用AI時的一個痛點,即模型在開放互聯網上能找到的信息與組織實際決策所需信息存在巨大差距,此前彌合這一差距需要大量定制化工程工作,而MCP支持結合Deep Research的自主瀏覽和推理能力,將大部分復雜性簡化為一次配置即可完成。開發者現在可讓Deep Research同時使用谷歌搜索、遠程MCP服務端、URL Context、代碼執行和文件搜索,或完全關閉網絡訪問,僅在自定義數據上搜索,系統還支持多模態輸入,包括PDF、CSV、圖像、音頻和視頻,作為grounding使用。
另一個重要功能是原生圖表和信息圖生成。之前的Deep Research版本只能生成純文本報告,用戶需要可視化時,必須將數據導出自行制作圖表,這削弱了“端到端自動化”的定位。現在,新一代智能體能在報告中原生內嵌高質量圖表和信息圖,以HTML或谷歌的Nano Banana格式動態渲染復雜數據集,使其成為分析敘事的一部分。對于金融和咨詢行業等需要產出可直接交付給利益相關者成果的企業用戶來說,這一功能讓Deep Research從“加速研究階段”的工具轉變為能生成接近最終分析產品的工具。
結合新增的協作式規劃功能(允許用戶在執行前審查、指導和優化智能體的研究計劃)以及實時流式輸出中間推理步驟,新系統讓開發者能對調查范圍進行細粒度控制,同時保持監管行業要求的高度透明度。
谷歌官方博客文章指出,當開發者使用Deep Research智能體進行構建時,調用的是為谷歌旗下多款熱門產品(如Gemini App、NotebookLM、Google Search和Google Finance)提供研究能力的同一套自主研究基礎設施。這表明通過API提供的智能體并非谷歌內部版本的簡化版,而是同一套系統以平臺規模對外提供服務。谷歌在自主研究智能體領域的演進十分迅速,2024年12月首次在Gemini App中推出Deep Research,作為C端功能,由Gemini 1.5 Pro驅動,當時描述為個人AI研究助手,能在幾分鐘內綜合網絡信息,幫助用戶節省數小時工作時間。2025年3月,使用Gemini 2.0 Flash Thinking Experimental對Deep Research進行升級,并向所有人開放試用,隨后升級至Gemini 2.5 Pro Experimental,谷歌報告評測者對其報告偏好度超過競爭對手的2比1。2025年12月是重要轉折點,谷歌推出Interactions API,首次以編程方式提供Deep Research,由Gemini 3 Pro驅動,并同步發布開源的DeepSearchQA基準測試。驅動本次改進的底層模型是Gemini 3.1 Pro,該模型于2026年2月19日發布,在核心推理能力上實現重大飛躍,在評估模型解決新型邏輯模式的ARC - AGI - 2基準測試中,3.1 Pro得分達到77.1%,是Gemini 3 Pro的兩倍多。












