​智谱多模态开源周圆满落幕:四项视频生成核心技术全面开放

AI行业资讯6小时前发布本文共计747个字,预计阅读时长3分钟。 墨白
6.3K 0 0

在近日落幕的智谱多模态开源周上,智谱团队宣布开源四项针对视频生成领域的核心技术。这些成果不仅展现了智谱在多模态模型方面的最新突破,也为视频生成技术的进一步发展提供了重要支持。

在过去一周内,智谱GLM团队陆续发布了包括GLM-4.6V视觉理解模型、AutoGLM设备控制模型、GLM-ASR语音识别模型及GLM-TTS语音合成模型在内的多模态模型系列。这些技术旨在提升大模型在理解世界知识、记忆能力与复杂推理等方面的能力,使其更贴近人类的认知水平。

​智谱多模态开源周圆满落幕:四项视频生成核心技术全面开放

在开源周的最后阶段,团队集中发布了四项聚焦于视频生成关键挑战的新技术:SCAIL、RealVideo、Kaleido与SSVAE。它们分别针对精细化可控生成、复杂时空结构建模以及大规模训练成本控制等核心问题。

SCAIL技术专注于影视级角色动画生成,可实现复杂姿态的精准控制,确保生成角色在运动过程中的结构完整性。RealVideo则是一套实时流式视频生成系统,显著降低了生成延迟,仅需2至3秒即可输出视频,使得与AI角色的互动更为流畅自然。

Kaleido技术着力于多主体视频生成,能够保持多个主体之间的一致性,有效避免常见的特征混淆现象。SSVAE则通过训练过程的优化,提升了视频生成模型的训练效率,在同等输出质量下可将收敛速度提高三倍。

​智谱多模态开源周圆满落幕:四项视频生成核心技术全面开放

智谱团队表示,希望通过开源这些技术,激发视频生成技术社区的创新活力,为开发者提供更多可落地的工程方案与研究基础。同时,智谱也期待与全球开发者共同探索人工智能的演进路径,进一步推动通用人工智能(AGI)的实现。

核心亮点

  • 🌟 SCAIL:实现影视级角色动画生成,支持复杂姿态精准控制。
  • ⚡ RealVideo:实时视频生成系统,生成延迟低至2–3秒。
  • 🎨 Kaleido:多主体视频生成框架,确保主体间一致性,避免特征混淆。
© 版权声明

相关文章