近日,谷歌FACTS团队与数据科学平台Kaggle联合发布了FACTS基准测试套件,旨在填补当前AI模型评估中对事实准确度缺乏统一标准化测试的空白。该基准套件为法律、金融、医疗等对信息准确性要求极高的行业,提供了一个全面的评估框架。
FACTS基准从两个操作维度定义了“事实性”:“上下文事实性”——即模型依据所提供信息生成准确回答的能力;“世界知识事实性”——即模型从自身记忆或外部检索中获取正确信息的能力。初步测试结果显示,包括Gemini3Pro、GPT-5及Claude4.5Opus在内的主流模型,在这一综合性基准中的整体准确率均未超过70%。
FACTS基准包含四个不同的测试类别,模拟了实际生产环境中可能出现的典型失效模式,分别是:参数基准(内部知识)、搜索基准(工具使用)、多模态基准(视觉理解)及上下文基准。谷歌已公开3513个测试示例,而Kaggle则负责维护一组私有数据集,以防止模型在评估数据上进行针对性训练。
初步排名显示,Gemini3Pro以68.8%的综合得分领先,Gemini2.5Pro(62.1%)与GPT-5(61.8%)紧随其后。值得注意的是,在“搜索”基准测试中,Gemini3Pro得分达83.8%,而在依赖内部记忆的“参数”任务中仅为76.4%。这说明企业在构建知识型应用时,将模型与搜索工具或向量数据库结合的检索增强生成(RAG)架构,可有效提升响应准确率。
多模态任务的表现则普遍偏低,即便表现最佳的Gemini2.5Pro在此类测试中也仅获得46.9%的准确率。这表明当前多模态AI在无需人工审核的数据提取场景中尚未成熟,企业在相关产品规划中需保持审慎。
核心要点
- 所有受测模型在FACTS基准中整体准确率均低于70%,显示其事实性仍有较大提升空间
- Gemini3Pro在搜索任务中表现突出,但依赖内部知识的回答准确性仍相对有限
- 多模态AI在视觉信息理解与提取方面准确率偏低,实际应用中需结合人工复核机制
© 版权声明
文章版权归作者所有,未经允许请勿转载。