StreamingT2V - 一个可以生成超过 2 分钟长视频（1200 帧）的项目。

项目介绍：

StreamingT2V是一种先进的自回归技术，它能够从文本生成具有丰富动态特征的长视频，而不会出现视频停滞。这项技术确保视频在整个过程中保持时间上的一致性，紧密跟随描述性文本，并保持高帧级别的图像质量。

通过这种技术，研究人员已经成功生成了长达1200帧、持续2分钟的视频，并且可以进一步扩展到更长的时长。

StreamingT2V的实现涉及到在VQ-GAN自编码器的潜在空间中操作，通过帧逐帧应用编码器和解码器来生成视频。在训练和推理过程中，模型学习预测高斯噪声，这些噪声用于从输入信号生成视频。

此外，为了引导视频生成，模型还使用了一个条件噪声预测器，该预测器根据文本提示进行条件化。