中国科技巨头腾讯推出了一款引人注目的新工具,供内容创作者使用:一款名为HunyuanWorld-Voyager的AI模型。该工具可以仅通过一张静态图像生成短视频,创造出场景中相机运动的逼真幻觉。
与标准视频生成器如Sora不同,后者基本上是绘制一系列合理的帧,Voyager则专注于保持空间一致性。这意味着,当相机“移动”向前或侧面时,图像中的物体不会随意漂浮或扭曲。相反,它们保持其比例和位置,就像在真实的3D环境中一样。
用户上传任何图像——比如一间房间的内部照片或风景照片。然后,他们定义虚拟相机的轨迹,系统输出49帧(大约2秒的视频),可以拼接成更长的序列。
该技术的一个关键特性是同时生成彩色视频和每帧的深度数据。这使得结果可以转换为3D点云以进行进一步建模,这对游戏开发非常有用。然而,该模型并不创建真正的3D空间;它巧妙地模拟了一个。因此,在较长的序列或尝试完整的360度旋转时,可能会产生错误。
广泛采用的最大障碍是硬件要求。即使在最低质量(540p)下运行该模型,也需要至少60 GB VRAM的显卡。为了获得稳定的结果,建议使用80 GB的显卡——这样的解决方案既昂贵又稀有。
该模型在Hugging Face上正式可用,但其许可证禁止在欧盟、英国和韩国使用。拥有超过1亿用户的大型商业公司还需要与腾讯签署单独协议。
尽管目前存在局限性,Voyager在特定小众任务中仍然引人入胜。然而,目前它仍然更像是一个供爱好者和专业人士使用的好奇工具,而不是大众市场产品。专家指出,像这样的发展——来自腾讯、谷歌(Genie 3)和其他初创公司——是朝着一种新形式的生成数字艺术迈出的早期步骤,在这种艺术中,观众可以微妙地“移动”相机在AI创建的世界中。