就在OpenAI正式发布代号“Garlic”的GPT-5.2前夕,谷歌先行一步推出了全面进化的AI研究代理——Gemini Deep Research。这款基于最新Gemini 3 Pro大模型构建的智能体,不仅能生成高质量研究报告,更首次通过Interactions API向开发者开放,允许他们将谷歌高级研究能力整合进第三方应用。
这预示着谷歌正加速迈向“代理式AI”时代——人类不再需要亲自执行搜索任务,而是由AI代理自主完成复杂的信息处理。Gemini Deep Research专为处理海量信息与长上下文提示设计,可有效整合繁杂数据流,适用于企业尽职调查、药物毒性安全评估等高阶场景。谷歌透露,该工具将很快内置于Google Search、Google Finance、Gemini App及备受欢迎的学术工具NotebookLM等产品中。
针对代理式AI在长时间推理中容易产生“幻觉”——即模型虚构信息——的问题,Gemini 3 Pro在事实准确性上做了专门优化。在涉及多步骤、长时间自主决策的任务中,哪怕一次错误推断都可能导致整体输出失效,因此模型的可靠性尤为关键。
为验证技术实力,谷歌发布了专门评估AI代理在复杂、多跳信息检索任务中表现的DeepSearchQA新基准测试,并已将其开源。同时,Gemini Deep Research还在两项外部权威测试中亮相:一是以考察冷门知识著称的“人类终极考试”(Humanity’s Last Exam),二是聚焦浏览器自动化执行的BrowserComp。测试显示,谷歌智能体在前两项领先,但在BrowserComp上稍逊于OpenAI的ChatGPT 5 Pro。
颇具戏剧性的是,这些对比数据几乎在发布当天就失去了参考价值——因为OpenAI紧随其后正式推出了GPT-5.2,并宣布其在包括自研基准在内的多项评测中全面超越主要竞争对手,特别点明击败谷歌。此次发布时机的紧密对应,凸显出两家AI巨头在智能体赛道上的激烈竞争:一方试图以深度研究功能定义下一代AI助手,另一方则以更全面的推理能力发起反击。真正的AI代理之战,或许此刻才刚拉开序幕。