​阿里通义推出Qwen3-Omni-Flash-2025-12-01

AI行业资讯2小时前发布本文共计735个字,预计阅读时长3分钟。 墨白
4.7K 0 0

阿里云通义千问团队近日发布全新升级的Qwen3-Omni-Flash-2025-12-01大模型,该版本基于Qwen3-Omni架构打造,是一款支持文本、图像、音频、视频全模态处理的AI系统,具备实时流式响应能力,可同步生成文本与自然语音输出。

​阿里通义推出Qwen3-Omni-Flash-2025-12-01

本次模型升级的核心在于音视频交互体验的全面优化。新版本显著增强了模型对音视频指令的识别与执行能力,有效缓解了以往在口语交流场景中出现的“降智”现象。多轮音视频对话的流畅度与连续性也得到加强,人机互动更为自然、连贯。

系统提示(System Prompt)控制能力实现重要突破。用户可对 System Prompt 进行完整自定义,对模型行为实施精细化调控。不论是角色风格、表达习惯,还是响应篇幅,均可被准确设定,从而显著提高了模型行为的可控性与适应性。

在语言支持方面,新版本具备处理119种文本语言的能力,覆盖19种语音识别语言及10种语音合成语言。相比前代版本,Qwen3-Omni-Flash 在语言理解与遵循的一致性上进行了全面优化,确保在跨语言沟通场景中响应的准确性与稳定。

语音生成的拟人化水平与流畅性同步提升。新版有效改善了以往语速迟缓、机械感明显的现象,增强了模型根据内容自适应调节语速、停顿与韵律的能力,使得生成的语音更接近真人自然对话。

在综合性能表现上,Qwen3-Omni-Flash-2025-12-01 的全模态能力获得整体增强。文本理解与生成质量、语音理解准确度、语音生成自然感以及图像理解深度,均较之前版本有显著进步,为用户带来更为自然、准确、生动的AI交互体验。

核心升级

  • 音视频交互能力全面提升,优化对口语指令的理解与响应
  • 系统提示全面开放自定义,支持精细化模型行为调控
  • 多语言处理稳定性增强,保障跨语言场景准确沟通
© 版权声明

相关文章