谷歌旗下FACTS团队与数据科学平台Kaggle近日联合发布了FACTS基准测试套件,这是一套针对生成式人工智能模型在企业级任务中“事实一致性”与“真实性”的综合评估框架。
该基准弥补了当前主流评测体系的不足——传统评测多关注模型的解决问题能力,而忽略了生成内容与真实世界信息的一致性,特别是在涉及图表、图像等非文本场景时的表现。对于法律、金融、医疗等高可靠性需求行业,FACTS 提供了一种标准化的评测体系。
核心结论:当前AI模型仍与理想表现存在差距
FACTS 的初期测试结果向业界传递了明确信号:现有模型虽已显著提升,但仍远未达到可靠水平。包括Gemini3Pro、GPT-5和Claude4.5Opus在内的主流模型,在全部问题上的综合准确率均未超过70%。
FACTS团队在新闻稿中强调,这意味着“人工智能在未来仍有巨大提升空间”。对技术决策者而言,这再次说明“信赖但需验证”的阶段仍将持续。
FACTS架构:四大企业场景测试集
FACTS 基准超越传统的问答评测,由四个模拟企业真实应用场景的子评测组成:
- 参数基准测试:衡量模型仅依靠其内部训练知识准确回答问题的能力
- 搜索基准测试:评估模型运用搜索工具获取及整合实时信息的能力(对应RAG场景)
- 多模态基准测试:测试模型解读图表、示意图与图像时的准确性,避免“幻觉”现象
- Grounding Benchmark v2:评估模型依据所提供源文本(上下文)回答问题的能力
为防止模型在训练中“污染”数据,谷歌向公众开放3,513个样本,Kaggle则负责维护用于评估的私有测试集。
模型表现:Gemini3Pro领先,多模态成为普遍短板
初步评测结果显示,Gemini3Pro 以68.8%的综合得分领先,但细分数据揭示了模型在各任务中的表现差异:
| 模型 | FACTS总分 | 搜索(RAG) | 多模态(视觉) |
|---|---|---|---|
| Gemini3Pro | 68.8% | 83.8% | 46.1% |
| Gemini2.5Pro | 62.1% | 63.9% | 46.9% |
| GPT-5 | 61.8% | 77.7% | 44.1% |
| Grok4 | 53.6% | 75.3% | 25.7% |
| Claude4.5Opus | 51.3% | 73.2% | 39.2% |
对技术架构的启示:RAG系统仍必不可少
对构建RAG系统的开发者而言,评测数据强化了当前的企业架构原则:不应依赖模型内部记忆来处理关键信息。
数据显示,模型的“检索”能力(搜索)明显优于其“记忆”能力(参数化)。例如Gemini3Pro在搜索任务中得分达83.8%,而在参数任务中仅为76.4%。FACTS结果明确建议,对于依赖内部知识的应用,连接搜索工具或向量数据库是提升准确性至可投产水平的必要条件。
多模态警示:准确率不足50%
对产品管理者而言,多模态任务的低分尤其值得关注。在此类任务中,即便是表现最好的Gemini2.5Pro准确率也仅有46.9%。由于任务涉及图表阅读和示意图解读,这意味着当前多模态AI尚不适合无监督的数据提取场景。
如果产品路线图依赖AI从发票或财务图表中自动提取数据且不经人工审核,则系统很可能产生高达三分之一的严重错误。
结论:FACTS或成为企业采购新标准
FACTS基准有望成为企业AI模型选型的新参考标准。技术负责人应根据具体用例选择对应的子评测结果进行分析:
- 客户支持机器人:可参考合规性得分(Gemini2.5Pro此项74.2%,高于Gemini3Pro的69.0%)
- 研究助手:重点关注搜索评分
- 图像分析工具:需高度谨慎,应预设原始模型可能在约三分之一情况下产生错误