自助广告-日活跃5000+IP查看详情

Runway发布通用世界模型GWM-1，用像素预测构建可推理的虚拟世界

AI行业资讯6小时前更新本文共计1197个字，预计阅读时长4分钟。墨白

AI视频生成领域的知名公司Runway正式进军“世界模型”领域。周四，该公司发布了其首个通用世界模型GWM-1，宣称能够通过逐帧像素预测，构建理解物理规律与时间演化的动态模拟环境。此举将Runway置于与谷歌、OpenAI等科技巨头同台竞技的位置，共同角逐下一代具身智能与通用人工智能的关键基础设施。

“世界模型”指的是AI系统在其内部建立对现实世界运行机制的模拟，从而无需针对每个具体场景单独训练，即可进行推理、规划与自主决策。Runway认为，实现这一目标的最佳路径是让模型学会预测像素——即从视频序列中学习物理规律、光照、几何结构与因果关系。公司首席技术官Anastasis Germanidis在演示中强调：“要构建世界模型，首先必须打造一个足够强大的视频模型。在足够规模和高质量数据的支撑下，模型自然会形成对世界运作方式的深层理解。”

GWM-1并非单一产品，而是以三个专门化分支率先落地：GWM-Worlds、GWM-Robotics和GWM-Avatars。其中，GWM-Worlds是一款交互式应用，用户可通过文字或图像设定初始场景，模型将生成以24帧/秒、720p分辨率运行的动态世界。这个虚拟空间不仅具有连贯的几何与光照逻辑，还能在用户“探索”过程中实时生成新内容。Runway指出，该能力不仅可用于游戏开发，更能作为训练AI智能体在物理环境中导航与决策的虚拟沙盒。

在机器人领域，GWM-Robotics通过合成数据注入天气变化、动态障碍等变量，帮助机器人在高风险或难以复现的实际场景中进行行为预演。更重要的是，该系统可识别机器人在哪些情况下可能违反安全策略或操作指令，为可靠性验证提供新工具。Runway计划通过SDK向合作企业开放此模块，并透露正与多家机器人公司进行深度交流。

GWM-Avatars则专注于生成具有真实人类行为逻辑的数字人，适用于沟通、培训等场景——这与D-ID、Synthesia、Soul Machines及谷歌的数字人项目方向一致。尽管目前三大分支仍为独立模型，但Runway明确表示，其最终目标是将它们融合为统一的通用世界模型。

与此同时，Runway也对其本月早些时候发布的Gen4.5视频生成模型进行了重大升级。新版本支持原生音频生成、长达一分钟的多镜头视频合成，并能保持角色一致性、添加对话与环境音效。用户还可对现有视频的音频进行编辑，或对任意长度的多镜头作品进行精细调整。这一系列功能使Runway的视频工具愈发接近竞争对手Kling近期推出的“一体化视频套件”，也标志着AI视频生成正从创意原型阶段迈向可投入生产的工业化水平。目前，升级后的Gen4.5已面向所有付费用户开放。

随着世界模型从理论走向工程实践，Runway正尝试以“像素即物理”的理念，搭建一座连接虚拟仿真与现实行动的桥梁——在这里，AI不仅会看、会说，更开始理解世界是如何运转的。