Runway发布通用世界模型GWM-1,用像素预测构建可推理的虚拟世界

AI行业资讯6小时前更新本文共计1197个字,预计阅读时长4分钟。 墨白
8.6K 0 0

AI视频生成领域的知名公司Runway正式进军“世界模型”领域。周四,该公司发布了其首个通用世界模型GWM-1,宣称能够通过逐帧像素预测,构建理解物理规律与时间演化的动态模拟环境。此举将Runway置于与谷歌、OpenAI等科技巨头同台竞技的位置,共同角逐下一代具身智能与通用人工智能的关键基础设施。

“世界模型”指的是AI系统在其内部建立对现实世界运行机制的模拟,从而无需针对每个具体场景单独训练,即可进行推理、规划与自主决策。Runway认为,实现这一目标的最佳路径是让模型学会预测像素——即从视频序列中学习物理规律、光照、几何结构与因果关系。公司首席技术官Anastasis Germanidis在演示中强调:“要构建世界模型,首先必须打造一个足够强大的视频模型。在足够规模和高质量数据的支撑下,模型自然会形成对世界运作方式的深层理解。”

Runway发布通用世界模型GWM-1,用像素预测构建可推理的虚拟世界

GWM-1并非单一产品,而是以三个专门化分支率先落地:GWM-Worlds、GWM-Robotics和GWM-Avatars。其中,GWM-Worlds是一款交互式应用,用户可通过文字或图像设定初始场景,模型将生成以24帧/秒、720p分辨率运行的动态世界。这个虚拟空间不仅具有连贯的几何与光照逻辑,还能在用户“探索”过程中实时生成新内容。Runway指出,该能力不仅可用于游戏开发,更能作为训练AI智能体在物理环境中导航与决策的虚拟沙盒。

在机器人领域,GWM-Robotics通过合成数据注入天气变化、动态障碍等变量,帮助机器人在高风险或难以复现的实际场景中进行行为预演。更重要的是,该系统可识别机器人在哪些情况下可能违反安全策略或操作指令,为可靠性验证提供新工具。Runway计划通过SDK向合作企业开放此模块,并透露正与多家机器人公司进行深度交流。

GWM-Avatars则专注于生成具有真实人类行为逻辑的数字人,适用于沟通、培训等场景——这与D-ID、Synthesia、Soul Machines及谷歌的数字人项目方向一致。尽管目前三大分支仍为独立模型,但Runway明确表示,其最终目标是将它们融合为统一的通用世界模型。

与此同时,Runway也对其本月早些时候发布的Gen4.5视频生成模型进行了重大升级。新版本支持原生音频生成、长达一分钟的多镜头视频合成,并能保持角色一致性、添加对话与环境音效。用户还可对现有视频的音频进行编辑,或对任意长度的多镜头作品进行精细调整。这一系列功能使Runway的视频工具愈发接近竞争对手Kling近期推出的“一体化视频套件”,也标志着AI视频生成正从创意原型阶段迈向可投入生产的工业化水平。目前,升级后的Gen4.5已面向所有付费用户开放。

随着世界模型从理论走向工程实践,Runway正尝试以“像素即物理”的理念,搭建一座连接虚拟仿真与现实行动的桥梁——在这里,AI不仅会看、会说,更开始理解世界是如何运转的。

© 版权声明

相关文章