自助广告-日活跃5000+IP查看详情

秀人网写真集

低价火爆100G流量卡

谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%

AI行业资讯2小时前发布本文共计1427个字，预计阅读时长5分钟。墨白

4.7K 0 0

谷歌旗下FACTS团队与数据科学平台Kaggle近日联合发布了FACTS基准测试套件，这是一套针对生成式人工智能模型在企业级任务中“事实一致性”与“真实性”的综合评估框架。

该基准弥补了当前主流评测体系的不足——传统评测多关注模型的解决问题能力，而忽略了生成内容与真实世界信息的一致性，特别是在涉及图表、图像等非文本场景时的表现。对于法律、金融、医疗等高可靠性需求行业，FACTS 提供了一种标准化的评测体系。

谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%

核心结论：当前AI模型仍与理想表现存在差距

FACTS 的初期测试结果向业界传递了明确信号：现有模型虽已显著提升，但仍远未达到可靠水平。包括Gemini3Pro、GPT-5和Claude4.5Opus在内的主流模型，在全部问题上的综合准确率均未超过70%。

FACTS团队在新闻稿中强调，这意味着“人工智能在未来仍有巨大提升空间”。对技术决策者而言，这再次说明“信赖但需验证”的阶段仍将持续。

FACTS架构：四大企业场景测试集

FACTS 基准超越传统的问答评测，由四个模拟企业真实应用场景的子评测组成：

参数基准测试：衡量模型仅依靠其内部训练知识准确回答问题的能力
搜索基准测试：评估模型运用搜索工具获取及整合实时信息的能力（对应RAG场景）
多模态基准测试：测试模型解读图表、示意图与图像时的准确性，避免“幻觉”现象
Grounding Benchmark v2：评估模型依据所提供源文本（上下文）回答问题的能力

为防止模型在训练中“污染”数据，谷歌向公众开放3,513个样本，Kaggle则负责维护用于评估的私有测试集。

模型表现：Gemini3Pro领先，多模态成为普遍短板

初步评测结果显示，Gemini3Pro 以68.8%的综合得分领先，但细分数据揭示了模型在各任务中的表现差异：

模型	FACTS总分	搜索（RAG）	多模态（视觉）
Gemini3Pro	68.8%	83.8%	46.1%
Gemini2.5Pro	62.1%	63.9%	46.9%
GPT-5	61.8%	77.7%	44.1%
Grok4	53.6%	75.3%	25.7%
Claude4.5Opus	51.3%	73.2%	39.2%

对技术架构的启示：RAG系统仍必不可少

对构建RAG系统的开发者而言，评测数据强化了当前的企业架构原则：不应依赖模型内部记忆来处理关键信息。

数据显示，模型的“检索”能力（搜索）明显优于其“记忆”能力（参数化）。例如Gemini3Pro在搜索任务中得分达83.8%，而在参数任务中仅为76.4%。FACTS结果明确建议，对于依赖内部知识的应用，连接搜索工具或向量数据库是提升准确性至可投产水平的必要条件。

多模态警示：准确率不足50%

对产品管理者而言，多模态任务的低分尤其值得关注。在此类任务中，即便是表现最好的Gemini2.5Pro准确率也仅有46.9%。由于任务涉及图表阅读和示意图解读，这意味着当前多模态AI尚不适合无监督的数据提取场景。

如果产品路线图依赖AI从发票或财务图表中自动提取数据且不经人工审核，则系统很可能产生高达三分之一的严重错误。

结论：FACTS或成为企业采购新标准

FACTS基准有望成为企业AI模型选型的新参考标准。技术负责人应根据具体用例选择对应的子评测结果进行分析：

客户支持机器人：可参考合规性得分（Gemini2.5Pro此项74.2%，高于Gemini3Pro的69.0%）
研究助手：重点关注搜索评分
图像分析工具：需高度谨慎，应预设原始模型可能在约三分之一情况下产生错误

AI行业资讯

文章版权归作者所有，未经允许请勿转载。

深圳AI应用场景创新居全国第二

AI行业资讯

11个月前

2.9K0

前 xAI 首席财务官加盟 OpenAI，担任新任业务财务官

AI行业资讯

3个月前

14.7K0

新自由软件之父 RMS：别把 ChatGPT 当 “智能”，它只是个 “胡说八道生成器”

AI行业资讯

19小时前

9.5K0

字节跳动Vidi2重磅来袭！AI视频编辑“秒杀”Gemini 3 Pro，小时级素材一键变大片

AI行业资讯

1周前

11.1K0

谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%

核心结论：当前AI模型仍与理想表现存在差距

FACTS架构：四大企业场景测试集

模型表现：Gemini3Pro领先，多模态成为普遍短板

对技术架构的启示：RAG系统仍必不可少

多模态警示：准确率不足50%

结论：FACTS或成为企业采购新标准

阿里发布超强语音合成模型 Qwen3-TTS，49 种音色满足你的声音需求！

Google 推出托管 MCP 服务器：BigQuery、Maps 一键接入，Agent 调用零配置

相关文章

深圳AI应用场景创新居全国第二

前 xAI 首席财务官加盟 OpenAI，担任新任业务财务官

新自由软件之父 RMS：别把 ChatGPT 当 “智能”，它只是个 “胡说八道生成器”

字节跳动Vidi2重磅来袭！AI视频编辑“秒杀”Gemini 3 Pro，小时级素材一键变大片

热门文章

创意行业70% 的从业者因使用 AI 感到社会压力，担忧失业

腾讯自研大模型混元2.0发布：多方面能力提升

OpenAI 财务泄露：巨额开销压制盈利前景

半数英国成年人担忧 AI 对就业的影响，工会呼吁更大参与

字节跳动的豆包大模型：日均调用超30万亿tokens，增长势头惊人！

vLLM-Omni 发布：可以处理文本、图像、音频和视频

谷歌发布 FACTS 基准测试:揭示 AI “事实墙” 所有顶尖模型准确率均低于70%

核心结论：当前AI模型仍与理想表现存在差距

FACTS架构：四大企业场景测试集

模型表现：Gemini3Pro领先，多模态成为普遍短板

对技术架构的启示：RAG系统仍必不可少

多模态警示：准确率不足50%

结论：FACTS或成为企业采购新标准

阿里发布超强语音合成模型 Qwen3-TTS，49 种音色满足你的声音需求！

Google 推出托管 MCP 服务器：BigQuery、Maps 一键接入，Agent 调用零配置

相关文章

热门文章

网址