Gemini TTS 2.5正式上线:Google推情绪级语音,24语种+多角色一键切换

AI行业资讯2小时前发布本文共计912个字,预计阅读时长4分钟。 墨白
15.8K 0 0

谷歌近日发布Gemini2.5 Flash与Pro文本转语音预览模型,全面升级今年5月发布的旧版系统。新模型主打情感化表达、智能节奏调节及多语言角色对话三大特性,开发者现可通过Google AI Studio与Playground平台免费体验,预计2025年第一季度正式投入商用。

Gemini TTS 2.5正式上线:Google推情绪级语音,24语种+多角色一键切换

谷歌近日发布Gemini2.5 Flash与Pro文本转语音预览模型,全面升级今年5月发布的旧版系统。新模型主打情感化表达、智能节奏调节及多语言角色对话三大特性,开发者现可通过Google AI Studio与Playground平台免费体验,预计2025年第一季度正式投入商用。

情感化语音表达:一键切换多样风格

  • 支持根据”欢快””严肃”等提示词实时调整语音情绪与语速
  • 适用于有声读物、游戏角色配音、多语言课件等场景,有效改善传统语音合成的机械感
  • 用户可通过Synergy Intro应用实时体验多风格切换效果,输出质量媲美专业配音

智能节奏调节:上下文感知语速变化

  • 自动识别文本内容,在复杂解释处放慢语速,在兴奋段落加快节奏
  • 支持从”缓慢悬疑”到”急促惊险”的动态过渡,增强叙事感染力
  • 特别适合产品教程、营销视频等内容制作,告别单调的语音朗读

多语言角色对话:24种语言无缝切换

  • 可锁定多个说话者身份,确保对话交接自然流畅
  • 支持英语、法语、德语、日语、印地语等24种语言,保持原语言语调特色
  • Voices from History应用展示了跨语言历史人物对话效果,角色个性鲜明稳定

行业应用反馈:显著提升用户体验

  • 音频平台报告显示,集成后多说话者模式受欢迎,用户订阅率提升20%
  • 内容工作室反馈,英印双语漫画配音角色一致性获得好评,沉浸感大幅提升
  • 谷歌计划2025年Q1同步推出低延迟Flash版(响应<300ms)与高音质Pro版(48kHz采样)

未来规划:双版本并行发展

谷歌表示将持续优化Flash版的实时响应能力与Pro版的音质表现,并计划支持边缘节点部署,重点拓展播客制作、互动游戏、虚拟主播等实时应用场景。我们将持续关注其商用部署进展与付费方案更新。

官网地址:https://x.com/GoogleAIStudio/status/1998876411734692107

© 版权声明

相关文章