Step-Video-T2V 视频生成模型

联合创作 · 2025-02-18 16:28

Step-Video-T2V 是一种 state-of-the-art (SoTA) 文本到视频预训练模型，模型的参数量达到 300 亿，可以直接生成 204 帧、540P 分辨率的高质量视频。。

为了提高训练和推理效率，项目团队提出了视频深度压缩 VAE，实现了 16x16 的空间压缩率和 8x 的时间压缩率。直接偏好优化（DPO）应用于最后阶段，以进一步提高生成视频的视觉质量。

Step-Video-T2V 的性能在新颖的视频生成基准 Step-Video-T2V-Eval 上进行了评估，结果表明，与开源引擎和商业引擎相比，Step-Video-T2V 的文本视频质量更高。

评测结果显示，Step-Video-T2V 的模型性能在指令遵循、运动平滑性、物理合理性、美感度等方面的表现均显著超过市面上既有的效果最佳的开源视频模型。

在生成效果上，Step-Video-T2V 在复杂运动、美感人物、视觉想象力、基础文字生成、原生中英双语输入和镜头语言等方面具备强大的生成能力，且语义理解和指令遵循能力突出，能够高效助力视频创作者实现精准创意呈现。

Step-Video-T2V 对复杂运动场景具有优异的把控能力，无论是高雅优美的芭蕾舞、对抗激烈的空手道、紧张刺激的羽毛球，还是高速翻转的跳水，都能展现。

浏览 19

点赞

收藏

分享

举报

评论

图片

表情

Step-Video-T2V 视频生成模型

Step-Video-T2V是一种 state-of-the-art(SoTA)文本到视&#

ChatGPT生成视频

前面介绍了关键词生成视频，通过关键词生成文案，根据文案推荐音乐、获取图片，然后将这些资源合成视频。今天介绍一下ChatGPT生成文案或视频脚本，然后将文案或视频脚本粘贴到剪映，自动生成视频。有些朋友们有没...

单张人像生成视频！中国团队提出最新3D人脸视频生成模型，实现SOTA

SkyReels-V1 面向 AI 短剧创作的视频生成模型

SkyReels-V1是国内首个面向AI短剧创作

SkyReels-V1 面向 AI 短剧创作的视频生成模型

SkyReels-V1是国内首个面向AI短剧创作的视频生成模型，通过在 O(10M) &#x

奥特曼发布OpenAI首个视频生成模型Sora:视频,将要变革了

奥特曼发布OpenAI首个视频生成模型Sora。完美继承DALL·E 3的画质和遵循指令能力，能生成长达1分钟的高清视频。地址：https://openai.com/sora AI想象中的龙年春节，红旗招展人山人海。有紧跟舞龙队伍抬头好奇官网...

Google又一个狠活！首个文本视频生成模型

AI算法与图像处理

一张草图直接生成视频游戏,谷歌推出生成交互大模型

人工智能和大数据

AnimateDiff 文本生成视频

AnimateDiff 是一个能够将个性化的文本转换为动态图像或视频（text to video）的扩展模型，它可以将生成的静态图像与动态运动结合起来，从而创建个性化的动画图像。 AnimateDiff 的主要特点是可以适用于大多数现有的...

AI生成视频（上）- AI生成图片

2024.03.23 晚上9点，我邀请AI产品专家免费给大家分享：AI生成视频（上）- AI生成图片（Stable Diffusion 模型生成图片原理介绍），为了不错过直播，可长按识别下方二维码预约。

点赞

收藏

分享

举报