自助广告-日活跃5000+IP查看详情

苹果推出 STARFlow-V：一种颠覆传统的视频生成模型

苹果公司近期推出了其最新的视频生成模型 STARFlow-V，该模型在技术上与市场上的竞争对手如 Sora、Veo 和 Runway 存在明显差异。STARFlow-V 的设计重点在于增强长视频片段的稳定性，它采用了 “归一化流” 技术，而不是当前主流的扩散模型。

苹果公司近日推出创新视频生成系统STARFlow-V，该模型首次实现了在视觉质量与生成速度方面与主流扩散模型相当的表现。虽然当前输出分辨率为640×480像素、帧率为每秒16帧，但其采用的归一化流技术开创了视频生成新范式。

单次生成架构革新
区别于传统扩散模型需要多次迭代去噪的过程，STARFlow-V通过建立随机噪声与视频数据间的直接数学映射，实现单次前向传播即可完成视频生成。这一设计不仅大幅提升训练效率，还显著降低了多步生成中常见的错误累积问题。
多功能任务支持
系统具备强大的多模态处理能力，支持：
- 文本到视频生成
- 图像到视频转换（以输入图像作为起始帧）
- 视频编辑与延续
  针对超长视频生成需求，采用滑动窗口技术，通过保留前片段的上下文信息实现连续生成。
双重优化架构
为应对长序列生成中的误差传播挑战，模型采用双分支设计：
- 时间序列分支：负责跨帧运动一致性
- 空间细节分支：专注单帧画面质量
  训练过程中引入可控噪声配合”因果去噪网络”，在保证运动连贯性的同时提升画面纯净度。