StreamingT2V - 高效生成长视频项目

AI观察员 2024-03-29 14:09:23 浏览数 (363)
反馈

StreamingT2V - 高效生成长视频项目

Image

StreamingT2V一个可以生成超过 2 分钟长视频(1200 帧)的项目。

而且还会开源,开原生态的长视频生成有救了?#ai视频#

项目介绍

StreamingT2V是一种先进的自回归技术,它能够从文本生成具有丰富动态特征的长视频,而不会出现视频停滞。这项技术确保视频在整个过程中保持时间上的一致性,紧密跟随描述性文本,并保持高帧级别的图像质量。

通过这种技术,研究人员已经成功生成了长达1200帧、持续2分钟的视频,并且可以进一步扩展到更长的时长。

StreamingT2V的关键组件

StreamingT2V的核心组件包括条件注意模块(CAM)、外观保持模块(APM)和随机混合方法。

CAM通过注意力机制利用前一个视频块的特征,确保视频块之间的平滑过渡;APM从第一个视频块提取高级场景和对象特征,防止模型忘记初始场景;随机混合方法则允许无限长的视频增强,而不会出现块之间的不一致性。

StreamingT2V的实现细节

StreamingT2V的实现涉及到在VQ-GAN自编码器的潜在空间中操作,通过帧逐帧应用编码器和解码器来生成视频。在训练和推理过程中,模型学习预测高斯噪声,这些噪声用于从输入信号生成视频。

此外,为了引导视频生成,模型还使用了一个条件噪声预测器,该预测器根据文本提示进行条件化。

论文地址:https://arxiv.org/abs/2403.14773

@长视频生成 @自回归技术 @视频生成

0 人点赞