2025年12月10日AI日报:Qwen-Image-i2L可零门槛训练LoRA;智谱AI输入法全新发布;灵光推科普动画生成功能
欢迎来到AI导航吧【AI日报】专栏!本栏目每日为你筛选人工智能领域最新动态,重点关注技术演进与产品创新,助你保持行业前沿视野。
AI产品热度排行可参考: https://www.aidhb.com/rankings
1、OpenAI 下一代图像生成模型进入盲测阶段
OpenAI 正在对其代号分别为“Chestnut”与“Hazelnut”的两款新型图像生成模型展开小范围盲测,体现了该公司在文本生成图像领域的重要推进。新模型在多项关键能力上均有明显提升,涵盖世界知识理解、图像真实感与代码嵌入等方面。
【AI导航吧要点摘要】
- 世界知识理解能力已接近谷歌最新 Nano Banana Pro 模型水平
- 可生成接近摄影真实度的名人风格图像,面部细节、光影表现等显著优于前代 gpt-image-1
- 在图像中嵌入可读代码方面表现突出,能准确呈现复杂代码、流程图标签与数学公式
2、Qwen-Image-i2L:单图快速生成 LoRA 风格的创新技术
Qwen-Image-i2L 能够将单张图片快速转化为可调优的 LoRA 模型,显著降低了风格迁移的应用门槛。其通过多模态特征提取,将图片解构为风格、内容、构图、色调等要素,并生成轻量化 LoRA 模块。本文还介绍了其四种模型变体、技术基础及潜在局限。
【AI导航吧要点摘要】
- 核心创新:从单图一键生成可适配的 LoRA 模型
- 提供四种风格变体,适应不同场景需求
- 需注意过拟合等技术挑战
详情链接:https://modelscope.cn/models/DiffSynth-Studio/Qwen-Image-i2L/summary
3、智谱 AI 发布全新输入法并开源语音识别模型
智谱 AI 推出了 GLM-ASR 系列语音识别模型,并宣布开源相关技术,以优化语音交互体验。同时发布的桌面端输入法支持语音转文字、翻译与文本改写等功能,为 PC 用户提供更便捷的语音输入方式。新用户可获赠 2000 积分,享受 28 天免费体验。
【AI导航吧要点摘要】
- GLM-ASR 系列涵盖云端与端侧模型,识别准确度领先
- 桌面输入法集成语音转写、翻译、改写等实用功能
- 新用户可免费试用并获得积分奖励
详情链接:https://huggingface.co/zai-org/GLM-ASR-Nano-2512
4、通用AI助手“灵光”推出科普动画生成功能
“灵光”新增科普动画生成能力,旨在通过可视化动画形式解析复杂科学原理,提升知识传递效果。该功能覆盖多个科学及工程领域,并已接入对话系统,用户可实时触发动画解释。
【AI导航吧要点摘要】
- 通过动画将抽象科学原理直观呈现
- 支持天文学、物理学等多个领域的动态模拟
- 已集成至对话功能,支持即时调用
5、麦当劳 AI 生成圣诞广告因争议下架
麦当劳荷兰公司推出的 AI 生成圣诞广告因内容偏离传统节日氛围及视觉效果不佳引发广泛批评,现已撤下。尽管制作方表示投入大量资源,公众评价仍以负面为主。
【AI导航吧要点摘要】
- 广告因反传统主题与粗糙画质遭遇批评并最终下架
- 快速切换场景与突兀角色设计引起观众不适
- 制作公司虽强调投入,但公众接受度有限
6、xAI 推出电影实时 AI 广告植入工具 Halftime
马斯克旗下 xAI 推出名为 Halftime 的新工具,可将 AI 生成的广告实时嵌入电影与剧集内容中,尝试使广告与剧情自然结合。该技术也引发了关于艺术完整性与版权问题的讨论。
【AI导航吧要点摘要】
- Halftime 支持在影剧播放中实时插入 AI 生成的广告
- 广告可融入对话间隙,力求与剧情衔接
- 技术引发对作品艺术性与版权的争议
7、阿里巴巴成立“千问C端事业群”整合多端资源
阿里巴巴集团宣布组建“千问C端事业群”,整合原智能信息与智能互联事业群的核心产品,目标是将“千问”打造为 AI 时代的超级应用,作为用户数字生活的首要入口。同时计划扩展至眼镜、PC、车载等多终端场景,构建全覆盖的 AI 服务网络。
【AI导航吧要点摘要】
- 整合夸克、UC 等核心应用,构建超级 AI 应用生态
- 旨在成为用户进入数字世界的首要入口
- 向眼镜、PC、汽车等多终端延伸,实现全场景 AI 覆盖
8、微软 Excel 网页版新增“智能体模式”
微软为网页版 Excel 推出“智能体模式”,使 AI 能够深度参与复杂数据处理流程,提升工作效率并增强操作透明度。
© 版权声明
文章版权归作者所有,未经允许请勿转载。
相关文章
没有相关内容!