Runway推出了首个世界模型，并且在其最新的视频模型里融入了原生音频功能

更新：2026-01-19 06:00:19

随着越来越多的AI图像与视频生成企业涌入市场，Runway亦在其中。无论是初创公司还是大型科技企业，都纷纷推出相关产品，而Runway也发布了其首个世界模型。据该公司介绍，这个名为GWM-1的模型，能够借助逐帧预测的方式，构建出一个可以理解物理规律以及世界随时间演变行为的模拟系统。

世界模型是一个AI系统，它通过学习世界运作的内部模拟，来进行推理、计划和行动，而无需在现实生活中对每种可能场景进行训练。

Runway在本月早些时候发布了Gen 4.5视频模型，该模型在Video Arena排行榜上的表现超过了谷歌与OpenAI。据公司介绍，他们的GWM-1世界模型相较于谷歌的Genie-3及其他竞品，具备更强的“通用性”。Runway将这一模型定义为能够在机器人、生命科学等多元领域构建模拟环境，用于训练智能代理的工具。

为了构建世界模型，我们首先得打造一个极其优秀的视频模型。我们认为，构建世界模型的正确方向是教导模型直接预测像素，这是达成通用模拟的最优途径。只要具备足够的规模与合适的数据，就能构建出一个对世界运行规律有着充分认知的模型，公司首席技术官Anastasis Germanidis在直播时如此说道。

Runway发布了新世界模型的特定版本或变体，称为GWM-Worlds、GWM-Robotics和GWM-Avatars。

GWM-Worlds这款应用能让用户创建交互式项目。用户既可以通过提示词，也能借助图像参考来搭建场景；在探索空间的过程中，模型会生成一个对几何、物理和光照都有认知的世界。据开发公司介绍，该模拟以每秒24帧的速率运行，分辨率达到720p。Runway指出，尽管Worlds在游戏领域有用武之地，但它在教导智能体如何在物理世界中导航与行动方面同样表现出色。

公司借助GWM-Robotics，计划利用合成数据来丰富新的参数设置，比如多样化的天气状况或各类障碍物等。Runway指出，这种方式还能够帮助发现机器人在不同场景下可能会在何时、以何种方式违反相关政策与指令。

Runway也在GWM-Avatars项目下开展逼真化身的构建工作，以此来模拟人类行为。而D-ID、Synthesia、Soul Machines，乃至谷歌这类公司，都在专注于打造外观逼真的人类化身，并将其应用于通信、培训等多个领域。

公司指出，技术上Worlds、Robotics和Avatars是独立的模型，但最终计划将所有这些合并为一个模型。

除了推出新的世界模型外，该公司也在对本月初发布的Gen 4.5基础模型进行更新。这次更新让模型具备了原生音频功能以及生成长篇、多镜头内容的能力。据公司介绍，借助该模型，用户能够制作出时长一分钟、拥有角色一致性、原生对话、背景音频以及多角度复杂镜头的视频。同时，用户还可以对已有音频进行编辑并添加对话，并且能够剪辑任意长度的多镜头视频。

Runway的Gen 4.5更新让其在功能上更贴近竞争对手Kling本月初推出的全能视频套件，尤其是在原生音频处理和多镜头叙事能力方面。这一更新也反映出视频生成模型正从原型阶段逐步向可投入生产的工具演进。目前，Gen 4.5模型已向所有付费计划用户开放使用。