最近,一项引人关注的研究表明,大语言模型(LLM)在持续接触低质量数据后,会出现类似于人类的 “脑损伤” 现象,导致推理和记忆能力显著下降。研究者发现,AI 模型在接受高流行但低价值的社交媒体数据(如 Twitter)训练后,推理能力下降了23%,长上下文记忆能力下降了30%。而更令人担忧的是,这种损伤是不可逆的,即使在后续用高质量数据进行训练,模型也无法完全恢复到初始状态。
这项研究由一组 AI 研究者进行,他们对低质量数据进行了详细定义,并与高质量数据进行对比。他们将低质量数据归类为 “短文本、高热度” 的内容,特别是那些包含标题党和流行语的社交媒体帖子。研究表明,AI 模型接触这些低质量数据后,除了认知能力下降外,其人格特征也受到影响,表现出更多的自恋和精神病态特质。
研究团队选择了四个不同的大语言模型进行训练,分别让它们接受这两类数据。研究过程中,模型的核心能力通过多种维度进行评估,包括推理能力、记忆能力和道德规范的遵循。结果显示,“垃圾进垃圾出” 的原则确实适用于大语言模型,这一发现对未来的 AI 数据训练提出了新的警示。
研究人员认为,行业在训练 AI 时,必须关注数据的质量,避免低质量数据带来的潜在风险。此外,他们还建议在部署大模型时,应进行认知能力的基准测试,以确保 AI 不因长期接触低质量数据而导致能力退化。
划重点:
🧠 AI 模型在接触低质量数据后,推理和记忆能力显著下降,且损伤不可逆。
📉 接触低质量数据后,AI 模型表现出更多自恋和精神病态特质。
🔍 研究提醒,训练 AI 时要重视数据质量,并进行认知能力测试。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
暂无评论...