谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%

AI行业资讯2小时前发布本文共计1427个字,预计阅读时长5分钟。 墨白
4.7K 0 0

谷歌旗下FACTS团队与数据科学平台Kaggle近日联合发布了FACTS基准测试套件,这是一套针对生成式人工智能模型在企业级任务中“事实一致性”与“真实性”的综合评估框架。

该基准弥补了当前主流评测体系的不足——传统评测多关注模型的解决问题能力,而忽略了生成内容与真实世界信息的一致性,特别是在涉及图表、图像等非文本场景时的表现。对于法律、金融、医疗等高可靠性需求行业,FACTS 提供了一种标准化的评测体系。

谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%

核心结论:当前AI模型仍与理想表现存在差距

FACTS 的初期测试结果向业界传递了明确信号:现有模型虽已显著提升,但仍远未达到可靠水平。包括Gemini3Pro、GPT-5和Claude4.5Opus在内的主流模型,在全部问题上的综合准确率均未超过70%。

FACTS团队在新闻稿中强调,这意味着“人工智能在未来仍有巨大提升空间”。对技术决策者而言,这再次说明“信赖但需验证”的阶段仍将持续。

FACTS架构:四大企业场景测试集

FACTS 基准超越传统的问答评测,由四个模拟企业真实应用场景的子评测组成:

  • 参数基准测试:衡量模型仅依靠其内部训练知识准确回答问题的能力
  • 搜索基准测试:评估模型运用搜索工具获取及整合实时信息的能力(对应RAG场景)
  • 多模态基准测试:测试模型解读图表、示意图与图像时的准确性,避免“幻觉”现象
  • Grounding Benchmark v2:评估模型依据所提供源文本(上下文)回答问题的能力

为防止模型在训练中“污染”数据,谷歌向公众开放3,513个样本,Kaggle则负责维护用于评估的私有测试集。

模型表现:Gemini3Pro领先,多模态成为普遍短板

初步评测结果显示,Gemini3Pro 以68.8%的综合得分领先,但细分数据揭示了模型在各任务中的表现差异:

模型 FACTS总分 搜索(RAG) 多模态(视觉)
Gemini3Pro 68.8% 83.8% 46.1%
Gemini2.5Pro 62.1% 63.9% 46.9%
GPT-5 61.8% 77.7% 44.1%
Grok4 53.6% 75.3% 25.7%
Claude4.5Opus 51.3% 73.2% 39.2%

对技术架构的启示:RAG系统仍必不可少

对构建RAG系统的开发者而言,评测数据强化了当前的企业架构原则:不应依赖模型内部记忆来处理关键信息。

数据显示,模型的“检索”能力(搜索)明显优于其“记忆”能力(参数化)。例如Gemini3Pro在搜索任务中得分达83.8%,而在参数任务中仅为76.4%。FACTS结果明确建议,对于依赖内部知识的应用,连接搜索工具或向量数据库是提升准确性至可投产水平的必要条件。

多模态警示:准确率不足50%

对产品管理者而言,多模态任务的低分尤其值得关注。在此类任务中,即便是表现最好的Gemini2.5Pro准确率也仅有46.9%。由于任务涉及图表阅读和示意图解读,这意味着当前多模态AI尚不适合无监督的数据提取场景。

如果产品路线图依赖AI从发票或财务图表中自动提取数据且不经人工审核,则系统很可能产生高达三分之一的严重错误。

结论:FACTS或成为企业采购新标准

FACTS基准有望成为企业AI模型选型的新参考标准。技术负责人应根据具体用例选择对应的子评测结果进行分析:

  • 客户支持机器人:可参考合规性得分(Gemini2.5Pro此项74.2%,高于Gemini3Pro的69.0%)
  • 研究助手:重点关注搜索评分
  • 图像分析工具:需高度谨慎,应预设原始模型可能在约三分之一情况下产生错误
© 版权声明

相关文章