StreamingT2V - 高效生成长视频项目

StreamingT2V一个可以生成超过 2 分钟长视频（1200 帧）的项目。

而且还会开源，开原生态的长视频生成有救了？#ai视频#

项目介绍

StreamingT2V是一种先进的自回归技术，它能够从文本生成具有丰富动态特征的长视频，而不会出现视频停滞。这项技术确保视频在整个过程中保持时间上的一致性，紧密跟随描述性文本，并保持高帧级别的图像质量。

通过这种技术，研究人员已经成功生成了长达1200帧、持续2分钟的视频，并且可以进一步扩展到更长的时长。

StreamingT2V的核心组件包括条件注意模块（CAM）、外观保持模块（APM）和随机混合方法。

CAM通过注意力机制利用前一个视频块的特征，确保视频块之间的平滑过渡；APM从第一个视频块提取高级场景和对象特征，防止模型忘记初始场景；随机混合方法则允许无限长的视频增强，而不会出现块之间的不一致性。

StreamingT2V的实现涉及到在VQ-GAN自编码器的潜在空间中操作，通过帧逐帧应用编码器和解码器来生成视频。在训练和推理过程中，模型学习预测高斯噪声，这些噪声用于从输入信号生成视频。

此外，为了引导视频生成，模型还使用了一个条件噪声预测器，该预测器根据文本提示进行条件化。

@长视频生成 @自回归技术 @视频生成