AIbase12月9日报道 阿里巴巴Qwen团队今日发布新一代全模态大模型Qwen3-Omni-Flash-2025-12-01。该模型支持文本、图像、音频和视频的无缝输入,并通过实时流式响应同步生成高质量文本与自然语音,官方称其语音表现自然度已逼近真人水平。
技术突破:实时流式全模态交互
Qwen3-Omni-Flash采用实时流式架构,可实现文本、图像、音频和视频的无缝输入与同步输出。模型支持119种文本语言交互、19种语音识别语言和10种语音合成语言,确保跨语言场景下的准确响应。
个性化体验:System Prompt开放自定义
新版本全面开放System Prompt自定义权限,用户可精细调控模型行为模式,包括设定「甜妹」「御姐」等特定人设风格,以及调整口语化表达偏好和回复长度。模型能根据文本内容自适应调节语速、停顿与韵律。
性能提升:基准测试全面跃升
官方数据显示,新模型在逻辑推理任务(ZebraLogic)上得分提升5.6,在代码生成(LiveCodeBench-v6)上提升9.3,在多学科视觉问答(MMMU)上提升4.7,展现出强大的多模态理解与分析能力。
市场部署:API已上线,定价亲民
Qwen3-Omni-Flash目前已通过API上线,输入定价为1元/百万tokens,输出为3元/百万tokens。模型已在Qwen Chat集成Demo,支持上传30秒视频并实时生成带画面口播。
行业意义:全模态进入「人格化」阶段
当多模态仍在比拼能看懂多少图,阿里直接把「实时流+人格化」做成API。对于直播、短视频、虚拟会议等重语音、重风格场景,这相当于把「配音演员+后期口播」成本打到接近零。
下一步计划:
2025年Q1将发布70B轻量版,单卡A100可跑实时流;Q2开放「语音克隆10秒」接口;Q3上线「视频驱动头像」Beta功能。AIbase将持续跟踪其语音克隆与视频驱动头像功能的开放进度。