StreamingT2V - 高效生成长视频项目
StreamingT2V一个可以生成超过 2 分钟长视频(1200 帧)的项目。
而且还会开源,开原生态的长视频生成有救了?#ai视频#
项目介绍
StreamingT2V是一种先进的自回归技术,它能够从文本生成具有丰富动态特征的长视频,而不会出现视频停滞。这项技术确保视频在整个过程中保持时间上的一致性,紧密跟随描述性文本,并保持高帧级别的图像质量。
通过这种技术,研究人员已经成功生成了长达1200帧、持续2分钟的视频,并且可以进一步扩展到更长的时长。
StreamingT2V的关键组件
StreamingT2V的核心组件包括条件注意模块(CAM)、外观保持模块(APM)和随机混合方法。
CAM通过注意力机制利用前一个视频块的特征,确保视频块之间的平滑过渡;APM从第一个视频块提取高级场景和对象特征,防止模型忘记初始场景;随机混合方法则允许无限长的视频增强,而不会出现块之间的不一致性。
StreamingT2V的实现细节
StreamingT2V的实现涉及到在VQ-GAN自编码器的潜在空间中操作,通过帧逐帧应用编码器和解码器来生成视频。在训练和推理过程中,模型学习预测高斯噪声,这些噪声用于从输入信号生成视频。
此外,为了引导视频生成,模型还使用了一个条件噪声预测器,该预测器根据文本提示进行条件化。
论文地址:https://arxiv.org/abs/2403.14773
@长视频生成 @自回归技术 @视频生成