StreamingT2V - 一个可以生成超过 2 分钟长视频(1200 帧)的项目

请把小喵还给我 2024-03-25 15:30:04 浏览数 (247)
反馈

StreamingT2V - 一个可以生成超过 2 分钟长视频(1200 帧)的项目。

项目介绍:

StreamingT2V是一种先进的自回归技术,它能够从文本生成具有丰富动态特征的长视频,而不会出现视频停滞。这项技术确保视频在整个过程中保持时间上的一致性,紧密跟随描述性文本,并保持高帧级别的图像质量。

通过这种技术,研究人员已经成功生成了长达1200帧、持续2分钟的视频,并且可以进一步扩展到更长的时长。

StreamingT2V的关键组件:

  • 条件注意模块(CAM):通过注意力机制利用前一个视频块的特征,确保视频块之间的平滑过渡。
  • 外观保持模块(APM):从第一个视频块提取高级场景和对象特征,防止模型忘记初始场景。
  • 随机混合方法:允许无限长的视频增强,而不会出现块之间的不一致性。

StreamingT2V的实现细节:

StreamingT2V的实现涉及到在VQ-GAN自编码器的潜在空间中操作,通过帧逐帧应用编码器和解码器来生成视频。在训练和推理过程中,模型学习预测高斯噪声,这些噪声用于从输入信号生成视频。

此外,为了引导视频生成,模型还使用了一个条件噪声预测器,该预测器根据文本提示进行条件化。

论文地址

0 人点赞