自助广告-日活跃5000+IP查看详情

“开口即角色”！阿里 Qwen3-TTS 登场：49 种音色 + 10 语言 9 方言，WER 碾压主流商用模型

阿里巴巴发布新一代语音合成模型Qwen3-TTS，以“零样本学习、多角色支持、跨语言生成”为核心特性，正式加入其Qwen3模型家族。该模型在国际通用的词错误率（WER）基准测试中表现优于当前主流商用引擎，并已同步在阿里云平台上线，为新注册开发者提供100万字符的免费试用额度。

高度拟人化的语音合成能力

Qwen3-TTS集成了49种高品质预设音色，覆盖从温柔少女到方言大叔等多种风格，适用于旁白、客服、直播、教育等多种场景。模型支持10种通用语言及9种中国地区方言（如粤语、四川话、东北话等），用户可在同一文本上实时切换不同音色，无需针对每种音色进行额外训练。

“开口即角色”！阿里 Qwen3-TTS 登场：49 种音色 + 10 语言 9 方言，WER 碾压主流商用模型

在技术层面，模型采用自回归声学建模与韵律预测模块相结合的方式，能够根据文本中的标点符号和情感标签自动调整语调升降、插入合理停顿，实现高度拟人化的语音输出。在48kHz采样率下，其平均意见分（MOS）达到4.53，高于行业平均的4.1水平。

多语言场景下错误率显著降低

在MLS与Common Voice等多语言语音合成公开数据集上，Qwen3-TTS的英文词错误率降至2.8%，中文词错误率仅为1.9%，较Azure TTS分别降低18%和24%，刷新了开源语音合成模型的最佳性能纪录。

教育场景实现零样本快速部署

配合模型发布，阿里云同步推出“一键朗读”插件。教师上传PPT课件后，系统可自动生成包含方言发音的讲解音频。目前该功能已在上海市120所中小学开展试点，支持学生使用家乡方言进行单词听写等学习活动。

服务定价与接入方式

免费额度：每月100万字符，49种音色全部开放使用；
付费标准：超出部分按0.8元/万字符计费，支持SSML标签与实时流式合成；
接入入口：开发者可通过阿里云控制台（人工智能 → 语音合成）直接调用Qwen3-TTS服务。

未来发展规划

阿里巴巴透露，计划于2025年第一季度推出“10秒音色克隆”功能，用户通过上传短音频样本即可生成个性化语音角色。同时，将发布采样率达80kHz的超采样版本，重点面向播客制作、有声书与虚拟偶像等对音质要求较高的应用场景。

行业影响展望

随着Qwen3-TTS以“开源+低成本”策略进入市场，语音合成领域的竞争正从基本可懂度转向角色化与个性化表达。该模型不仅为直播、客服、教育等领域提供了零样本快速落地方案，也通过即将推出的音色克隆与超采样技术，推动语音生成进入“人人可定制”的新阶段。

项目地址：https://modelscope.cn/studios/Qwen/Qwen3-TTS-Demo

AI行业资讯

文章版权归作者所有，未经允许请勿转载。

上海交通大学发布 AI 使用规范：学生应坚持人工智能辅助学习的价值定位

AI行业资讯

9个月前

1.8K0

DeepSeek能否开启全民AI时代

AI行业资讯 # DeepSeek

10个月前

2.3K0

新苹果推出 STARFlow-V 视频模型，独家采用“归一化流”，实现长达30秒的画面稳定

AI行业资讯

6小时前

7.9K0

华盛昌宣布：“DeepSense 深度感测大模型” 通过备案

AI行业资讯 # DeepSense # 华盛昌

3个月前

6.4K0

“开口即角色”！阿里 Qwen3-TTS 登场：49 种音色 + 10 语言 9 方言，WER 碾压主流商用模型

高度拟人化的语音合成能力

多语言场景下错误率显著降低

教育场景实现零样本快速部署

服务定价与接入方式

未来发展规划

Meta AI 牵手全球8大媒体：实时新闻“秒回”+外链导流

京东云JoyBuilder支持GR00T N1. 5 千卡训练，引领具身智能迈向规模化落地

相关文章

上海交通大学发布 AI 使用规范：学生应坚持人工智能辅助学习的价值定位

DeepSeek能否开启全民AI时代

新苹果推出 STARFlow-V 视频模型，独家采用“归一化流”，实现长达30秒的画面稳定

华盛昌宣布：“DeepSense 深度感测大模型” 通过备案

“开口即角色”！阿里 Qwen3-TTS 登场：49 种音色 + 10 语言 9 方言，WER 碾压主流商用模型

高度拟人化的语音合成能力

多语言场景下错误率显著降低

教育场景实现零样本快速部署

服务定价与接入方式

未来发展规划

Meta AI 牵手全球8大媒体：实时新闻“秒回”+外链导流

京东云JoyBuilder支持GR00T N1. 5 千卡训练，引领具身智能迈向规模化落地

相关文章

上海交通大学发布 AI 使用规范：学生应坚持人工智能辅助学习的价值定位

DeepSeek能否开启全民AI时代

新苹果推出 STARFlow-V 视频模型，独家采用“归一化流”，实现长达30秒的画面稳定

华盛昌宣布：“DeepSense 深度感测大模型” 通过备案

标签云

网址