长时舞蹈生成:数秒钟可生成极长的3D舞蹈
大数据文摘
共 5164字,需浏览 11分钟
· 2024-04-11
大数据文摘受权转载自将门创投
针对目前音乐生成3D舞蹈动作中存在的长序列生成动作质量差,生成效率低的问题,本文提出了Lodge,可以高效地根据输入音乐生成极长的3D人体舞蹈动作。本文将Lodge设计为两阶段的由粗到细的Diffusion框架,并提出了特征化的舞蹈基元动作作为两阶段Diffusion的中间层表征,从而让Lodge可以兼顾全局编舞规律和局部的动作质量,并且增强舞蹈的表现力。此外,本文还提出了脚步优化模块以缓解脚和地面的接触问题如脚滑、脚步漂浮等。文本通过大量的定量和定性实验证明了Lodge的有效性。代码已经开源,欢迎体验。
论文题目:
Lodge: A Coarse to Fine Diffusion Network for Long Dance Generation Guided by the Characteristic Dance Primitives 论文链接: https://arxiv.org/abs/2403.10518 主页链接: https://li-ronghui.github.io/lodge 代码链接:
https://github.com/li-ronghui/LODGE
一、 研究动机
近年来,随着生成式人工智能 的快速发展,现有方法如FineDance[1] ,EDGE[2]已经展示出了数秒钟高质量舞蹈的能力。然而,实际应用中的舞蹈表演和社交舞通常持续3至5分钟,舞蹈剧可以持续15分钟以上。因此,现有的舞蹈生成算法难以满足实际需求,而如何生成高质量的长序列舞蹈动作成为了正待解决的问题。然而,生成长序列的舞蹈仍面临着不少挑战:
- 长序列数据显著增大了计算开销,如何开发计算友好的方法,提高训练和推理阶段的效率?
- 现有的方法主要采用自回归模型,迭代地生成长序列舞蹈。然而这些方法往往面临着误差累积问题,且无法学习到全局的编舞规律。
- 由于神经网络的训练只关注与整体loss的收敛,因此网络更倾向于生成保守的动作,这导致了最终的舞蹈缺少富有表现力的动作,展现出了平淡和中庸的效果。
- 我们提出了一个可以并行生成长舞蹈的扩散模型。我们的方法能够学习整体的编舞模式,同时保证局部动作的质量。并行生成策略可以在数秒钟生成极长的3D舞蹈。
- 我们提出了characteristic dance primitives作为两个扩散模型之间的中间表示,提高了生成舞蹈的张力。
- 我们提出了一个脚部优化模块,并采用足部与地面的接触损失来缓解脚步和地面接触的问题诸如脚滑、脚部漂浮和脚与地面穿模等。
图1. Lodge训练过程。
在推理阶段,首先输入长音乐特征,用Global Difusion生成蕴含编舞规律的多个dance primitives。每个dance primitives的维度是,其中 8 是帧,139是动作的维度。然后,我们将它们按照时间顺序分为用于支持并行生成的hard-cue key motion 和用于增强舞蹈表现的soft-cue key motion 。
图2. Lodge推理过程。“TE”为Transformer Encoder,“LD”为Local Diffusion。
随后进行Local Diffusion的并行生成。我们将在时间维度切分为,并行地采用4个Local Diffusion并行生成对应的舞蹈片段。如图3所示,在生成过程种,我们利用hard-cue key motion和Diffusion inpainting技术控制 的最后四帧与对应的前4帧一致,而的前4帧与该 的后4帧一致。从而让 与 可以无缝衔接。同时,在扩散模型去噪过程中,soft-cue key motion仅在最初的步中起到指导作用,其中T是扩散去噪步数。通过调整超参数“”,我们可以控制Local Diffusion受这些soft-cue key motion影响的程度。图3. Hard/Soft Diffusion Guidance
三、实验
我们在FineDance[1]和AIST++[5]两个数据集上进行实验。由于FineDance平均每段舞蹈的时长是152.3秒,远高于AIST++的13.3秒,因此我们主要用FineDance数据集进行训练和测试。
表1. 在FineDacne数据集上与其他方法对比 。
值得一提的是,采用DDIM采样策略可以获得不错的性能,并且生成1024帧舞蹈的推理时间降低到了4.57s。而得益于我们的并行生成架构,继续增大需要生成的舞蹈的序列长度,推理时间也不会显著增大。表2. 超参数“s”的消融实验,测试于FineDance数据集。
我们的soft-cue key motion对结果的影响程度可以使用超参数“s”进行调整,其中“s”值越大表示效果越强。表2 展示了设置各种“s”值所产生的结果。随着“s”的增加,和节拍对齐分数BAS也相应增强。当“s”设置为 1 时,可获得最佳的性能。表3. Foot Refine Block的消融实验,测试于FineDance数据集。
如表3所示,加入Foot Refine Block后,运动质量FID_k有了很大的改善,特别是Foot Skating Ratio从5.94%下降到5.01%,这证明我们提出的Foot Refine Block可以有效改善脚部与地面的接触质量,降低脚部脚滑现象出现的频率。 四、总结 在这项工作中,我们引入了 Lodge,一种两级从粗到细的扩散网络,并提出characteristic dance primitives作为两个扩散模型的中间级表示。Lodge 已通过用户研究和标准指标进行了广泛的评估,取得了最先进的结果。我们生成的样本表明,Lodge 可以并行生成符合编舞规则的舞蹈,同时保留局部细节和物理真实感。广泛的消融实验验证了我们不同模块、粗到细框架、舞蹈基元和足部细化网络的有效性。然而,我们的方法目前无法生成带有手势或面部表情的舞蹈动作,这对于表演也至关重要。我们将很高兴在未来看到长序列全身舞蹈生成的新工作。 参考文献 [1] Li, Ronghui, et al. "FineDance: A Fine-grained Choreography Dataset for 3D Full Body Dance Generation." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2023.[2] Tseng, Jonathan, Rodrigo Castellon, and Karen Liu. "Edge: Editable dance generation from music." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2023.
[3] Blom, Lynne Anne, and L. Tarin Chaplin. The intimate act of choreography. University of Pittsburgh Pre, 1982.
[4] Chen, Kang, et al. "Choreomaster: choreography-oriented music-driven dance synthesis." ACM Transactions on Graphics (TOG) 40.4 (2021): 1-13.
[5] Li, Ruilong, et al. "Ai choreographer: Music conditioned 3d dance generation with aist++." Proceedings of the IEEE/CVF International Conference on Computer Vision. 2021.
[6] Huang, Ruozi, et al. "Dance revolution: Long-term dance generation with music via curriculum learning." arXiv preprint arXiv:2006.06119 (2020).
[7] Siyao, Li, et al. "Bailando: 3d dance generation by actor-critic gpt with choreographic memory." Proceedings of the IEEE/CVF Conference on Computer Vision and Pattern Recognition. 2022.
Illustration From IconScout By 22
租:4090/A800/H800/H100
售:现货H100/H800
特别适合企业级应用
扫码了解详情☝
评论
Python写3D游戏,这样也可以?
来源丨网络vizard介绍Vizard是一款虚拟现实开发平台软件,从开发至今已走过十个年头。它基于C/C++,运用新近OpenGL拓展模块开发出的高性能图形引擎。当运用Python语言执行开发时,Vizard同时自动将编写的程式转换为字节码抽象层(LAXMI),进而运行渲染核心。vizard入门1、
Python大数据分析
0
三个优秀的PyTorch实现语义分割框架
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达转自 | 机器学习AI算法工程使用的VOC数据集链接开放在文章中,预训练模型已上传Github,环境我使用Colab pro,大家下载模型做预测即可。代码链接: https://github.com/lixiang007
小白学视觉
0
如何画出漂亮的神经网络图?神经网络可视化工具集锦搜集
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达1. draw_convnet一个用于画卷积神经网络的Python脚本https://github.com/gwding/draw_convnet2. NNSVGhttp://alexlenail.me/NN-SVG/LeNet.
小白学视觉
0
如何看待稚晖君的时间管理水平?
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达计算机视觉life整理原文链接:https://www.zhihu.com/question/491456524/answer/2183081310稚晖君究竟是如何安排业余时间去做这么多高水平的项目?而且每个项目的用时也很少,普通
小白学视觉
2
“海优最初弄出来可并不是为了给大佬弟子开后门的, 学术界现在几乎不存在任何套利空间,不要相信有什么办法可以投机取巧”
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达知乎问题:为什么部分同学倾向土博+国外博后而不是直接国外读博?感觉身边土博越来越多,基本都是土博➕海博后,申国外phd的明显减少(相比较疫情之前几年)知乎Tianteman: 这个问题下,可以看得出一部分国内硕博信息检索能力差的离
小白学视觉
0
如何确定神经网络的层数和隐藏层神经元数量?
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达公众号:尤而小屋作者:呦呦鹿鸣编辑:Peter大家好,我是Peter~关于神经网络中隐藏层的层数和神经元个数充满了疑惑。刚好看到一篇文章很好地答疑了,分享给大家~https://zhuanlan.zhihu.com/p/10041
小白学视觉
0
神经网络之CNN与RNN的关系
点击上方“小白学视觉”,选择加"星标"或“置顶”重磅干货,第一时间送达1、CNN介绍CNN是一种利用卷积计算的神经网络。它可以通过卷积计算将原像素很大的图片保留主要特征变成很小的像素图片。本文以李宏毅老师ppt内容展开具体介绍。1.1 Why CNN for Image①为什么引入CNN ?图片示意
小白学视觉
0
真高!比亚迪员工爆料比亚迪在越南的薪资水平:基本工资480万,全勤奖35万,交通补助20万,餐补110万,每周6天,每天10小时
上一篇:某大公司为逼迫员工离职,竟然把他的工位安排到厕所旁,没想到他直接开始记录领导的如厕时间,还发到公司大群...对此,你怎么看?--完--PS:欢迎在留言区留下你的观点,一起讨论提高。如果今天的文章让你有新的启发,欢迎转发分享给更多人。全文完,感谢你的耐心阅读。如果你还想看到我的文章,请一定给本
开发者全社区
0