阿里巴巴发布新一代语音合成模型Qwen3-TTS,以“零样本学习、多角色支持、跨语言生成”为核心特性,正式加入其Qwen3模型家族。该模型在国际通用的词错误率(WER)基准测试中表现优于当前主流商用引擎,并已同步在阿里云平台上线,为新注册开发者提供100万字符的免费试用额度。
高度拟人化的语音合成能力
Qwen3-TTS集成了49种高品质预设音色,覆盖从温柔少女到方言大叔等多种风格,适用于旁白、客服、直播、教育等多种场景。模型支持10种通用语言及9种中国地区方言(如粤语、四川话、东北话等),用户可在同一文本上实时切换不同音色,无需针对每种音色进行额外训练。
在技术层面,模型采用自回归声学建模与韵律预测模块相结合的方式,能够根据文本中的标点符号和情感标签自动调整语调升降、插入合理停顿,实现高度拟人化的语音输出。在48kHz采样率下,其平均意见分(MOS)达到4.53,高于行业平均的4.1水平。
多语言场景下错误率显著降低
在MLS与Common Voice等多语言语音合成公开数据集上,Qwen3-TTS的英文词错误率降至2.8%,中文词错误率仅为1.9%,较Azure TTS分别降低18%和24%,刷新了开源语音合成模型的最佳性能纪录。
教育场景实现零样本快速部署
配合模型发布,阿里云同步推出“一键朗读”插件。教师上传PPT课件后,系统可自动生成包含方言发音的讲解音频。目前该功能已在上海市120所中小学开展试点,支持学生使用家乡方言进行单词听写等学习活动。
服务定价与接入方式
- 免费额度:每月100万字符,49种音色全部开放使用;
- 付费标准:超出部分按0.8元/万字符计费,支持SSML标签与实时流式合成;
- 接入入口:开发者可通过阿里云控制台(人工智能 → 语音合成)直接调用Qwen3-TTS服务。
未来发展规划
阿里巴巴透露,计划于2025年第一季度推出“10秒音色克隆”功能,用户通过上传短音频样本即可生成个性化语音角色。同时,将发布采样率达80kHz的超采样版本,重点面向播客制作、有声书与虚拟偶像等对音质要求较高的应用场景。
行业影响展望
随着Qwen3-TTS以“开源+低成本”策略进入市场,语音合成领域的竞争正从基本可懂度转向角色化与个性化表达。该模型不仅为直播、客服、教育等领域提供了零样本快速落地方案,也通过即将推出的音色克隆与超采样技术,推动语音生成进入“人人可定制”的新阶段。
项目地址:https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo