自助广告-日活跃5000+IP查看详情

阿里发布全模态大模型Qwen3-Omni-Flash：实时流式输出，支持 119 种语言交互

AI行业资讯2小时前发布本文共计798个字，预计阅读时长3分钟。墨白

AIbase12月9日报道阿里巴巴Qwen团队今日发布新一代全模态大模型Qwen3-Omni-Flash-2025-12-01。该模型支持文本、图像、音频和视频的无缝输入，并通过实时流式响应同步生成高质量文本与自然语音，官方称其语音表现自然度已逼近真人水平。

阿里发布全模态大模型Qwen3-Omni-Flash：实时流式输出，支持 119 种语言交互

技术突破:实时流式全模态交互

Qwen3-Omni-Flash采用实时流式架构，可实现文本、图像、音频和视频的无缝输入与同步输出。模型支持119种文本语言交互、19种语音识别语言和10种语音合成语言，确保跨语言场景下的准确响应。

个性化体验:System Prompt开放自定义

新版本全面开放System Prompt自定义权限，用户可精细调控模型行为模式，包括设定「甜妹」「御姐」等特定人设风格，以及调整口语化表达偏好和回复长度。模型能根据文本内容自适应调节语速、停顿与韵律。

性能提升:基准测试全面跃升

官方数据显示，新模型在逻辑推理任务（ZebraLogic）上得分提升5.6，在代码生成(LiveCodeBench-v6)上提升9.3，在多学科视觉问答(MMMU)上提升4.7，展现出强大的多模态理解与分析能力。

市场部署:API已上线，定价亲民

Qwen3-Omni-Flash目前已通过API上线，输入定价为1元/百万tokens，输出为3元/百万tokens。模型已在Qwen Chat集成Demo，支持上传30秒视频并实时生成带画面口播。

行业意义:全模态进入「人格化」阶段

当多模态仍在比拼能看懂多少图，阿里直接把「实时流+人格化」做成API。对于直播、短视频、虚拟会议等重语音、重风格场景，这相当于把「配音演员+后期口播」成本打到接近零。

下一步计划:

2025年Q1将发布70B轻量版，单卡A100可跑实时流;Q2开放「语音克隆10秒」接口;Q3上线「视频驱动头像」Beta功能。AIbase将持续跟踪其语音克隆与视频驱动头像功能的开放进度。

AI行业资讯

文章版权归作者所有，未经允许请勿转载。

字节跳动重奖大模型人才，Seed部门推百万期权激励计划

AI行业资讯

3个月前

9.5K0

腾讯混元大模型2.0正式发布：参数规模突破400B，多项性能指标领先行业

AI行业资讯

3天前

1.6K0

Anthropic支付15亿美元和解版权诉讼 AI训练数据争议创纪录赔偿

AI行业资讯

3个月前

2.4K0

ChatGPT新增分支对话功能，已向网页端登录用户开放

AI行业资讯

3个月前

9.5K0

阿里发布全模态大模型Qwen3-Omni-Flash：实时流式输出，支持 119 种语言交互

前字节跳动视觉模型负责人潘欣加盟美团，主导多模态 AI 创新

OpenAI 的 ChatGPT 登顶2025年美国 iPhone 免费应用榜首

相关文章

字节跳动重奖大模型人才，Seed部门推百万期权激励计划

腾讯混元大模型2.0正式发布：参数规模突破400B，多项性能指标领先行业

Anthropic支付15亿美元和解版权诉讼 AI训练数据争议创纪录赔偿

ChatGPT新增分支对话功能，已向网页端登录用户开放

热门文章

创意行业70% 的从业者因使用 AI 感到社会压力，担忧失业

腾讯自研大模型混元2.0发布：多方面能力提升

OpenAI 财务泄露：巨额开销压制盈利前景

半数英国成年人担忧 AI 对就业的影响，工会呼吁更大参与

字节跳动的豆包大模型：日均调用超30万亿tokens，增长势头惊人！

vLLM-Omni 发布：可以处理文本、图像、音频和视频

阿里发布全模态大模型Qwen3-Omni-Flash：实时流式输出，支持 119 种语言交互

前字节跳动视觉模型负责人潘欣加盟美团，主导多模态 AI 创新

OpenAI 的 ChatGPT 登顶2025年美国 iPhone 免费应用榜首

相关文章

热门文章

网址