英伟达推出 Nemotron 3:混合架构提升 AI 代理处理效率

AI行业资讯2个月前发布本文共计867个字,预计阅读时长3分钟。 墨白
9.6K 00
广告也精彩

英伟达近日推出全新的Nemotron 3系列模型,该系列融合Mamba与Transformer架构,旨在高效处理长上下文窗口,同时降低计算资源消耗。Nemotron 3系列专为自主执行复杂任务的AI代理系统设计,支持持续、长时间交互。

该系列包括Nano、Super和Ultra三个型号,其中Nano版本已正式发布,Super与Ultra型号预计在2026年上半年推出。英伟达在此次发布中打破了传统的纯Transformer架构,采用混合设计,将高效的Mamba层与Transformer模块及混合专家(MoE)技术相结合。相较于传统Transformer模型,Nemotron 3在处理长输入序列时表现更优,且内存占用保持稳定。

Nemotron 3支持长达一百万令牌的上下文窗口,使其在能力上与OpenAI、谷歌等前沿模型相当,可在不显著增加硬件负担的前提下存储大量信息,如完整代码库或长程对话历史。Nano型号包含316亿参数,但每个处理步骤中仅激活30亿参数。根据人工智能分析指数(AII)基准测试,Nemotron 3在准确性方面与gpt-oss-20B和Qwen3-30B相当,且在令牌吞吐量上表现更佳。

英伟达还为更高阶的Super和Ultra型号引入两项架构改进。其一是LatentMoE,旨在缓解标准MoE模型中内存带宽开销问题,允许系统在处理令牌前将其投影至压缩的潜在表示中。其二是多词元预测(MTP)技术,训练时可同时预测多个词元,从而提升文本生成速度与逻辑推理能力。

此外,英伟达公开了Nano型号的权重、训练方案及多个数据集,包括基于Common Crawl的Nemotron-CC-v2.1等,为开发者提供有力支持。此次发布符合英伟达推动更小型语言模型发展的战略,其设计优先考虑效率而非单纯追求性能峰值。

要点概述

  • Nemotron 3系列融合Mamba与Transformer架构,优化AI代理处理长上下文能力
  • Nano型号已上市,Super与Ultra版本计划2026年上半年推出
  • 英伟达开源模型权重与训练数据,支持开发者生态构建
© 版权声明

相关文章