Step-Video-T2V 视频生成模型
Step-Video-T2V 是一种 state-of-the-art (SoTA) 文本到视频预训练模型,模型的参数量达到 300 亿,可以直接生成 204 帧、540P 分辨率的高质量视频。。
为了提高训练和推理效率,项目团队提出了视频深度压缩 VAE,实现了 16x16 的空间压缩率和 8x 的时间压缩率。直接偏好优化(DPO)应用于最后阶段,以进一步提高生成视频的视觉质量。
Step-Video-T2V 的性能在新颖的视频生成基准 Step-Video-T2V-Eval 上进行了评估,结果表明,与开源引擎和商业引擎相比,Step-Video-T2V 的文本视频质量更高。
评测结果显示,Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现均显著超过市面上既有的效果最佳的开源视频模型。
在生成效果上,Step-Video-T2V 在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力,且语义理解和指令遵循能力突出,能够高效助力视频创作者实现精准创意呈现。
Step-Video-T2V 对复杂运动场景具有优异的把控能力,无论是高雅优美的芭蕾舞、对抗激烈的空手道、紧张刺激的羽毛球,还是高速翻转的跳水,都能展现。
评论