AI Choreographer多模式内容创建模型训练基础设施
这个包包含 AI Choreographer 的模型实现和训练基础设施,包括 FACT 模型实现。
拉取代码
git clone https://github.com/liruilong940607/mint --recursive
注意这里 --recursive 很重要,因为它也会自动克隆子模块。
安装依赖
conda create -n mint python=3.7
conda activate mint
conda install protobuf numpy
pip install tensorflow absl-py tensorflow-datasets librosa
sudo apt-get install libopenexr-dev
pip install --upgrade OpenEXR
pip install tensorflow-graphics tensorflow-graphics-gpu
git clone https://github.com/arogozhnikov/einops /tmp/einops
cd /tmp/einops/ && pip install . -U
git clone https://github.com/google/aistplusplus_api /tmp/aistplusplus_api
cd /tmp/aistplusplus_api && pip install -r requirements.txt && pip install . -U
注意如果遇到 numpy 的环境冲突,可以试试 pip install numpy==1.20
获取数据
数据在该网站。
运行代码
- 编译协议
protoc ./mint/protos/*.proto
-
将数据集预处理为 tfrecord
python tools/preprocessing.py \
--anno_dir="/mnt/data/aist_plusplus_final/" \
--audio_dir="/mnt/data/AIST/music/" \
--split=train
python tools/preprocessing.py \
--anno_dir="/mnt/data/aist_plusplus_final/" \
--audio_dir="/mnt/data/AIST/music/" \
--split=testval
-
训练
python trainer.py --config_path ./configs/fact_v5_deeper_t10_cm12.config --model_dir ./checkpoints
-
运行测试和评估
# caching the generated motions (seed included) to `./outputs`
python evaluator.py --config_path ./configs/fact_v5_deeper_t10_cm12.config --model_dir ./checkpoints
# calculate FIDs
python tools/calculate_scores.py
评论
ImageBind多模态 AI 模型
ImageBind是支持绑定来自六种不同模态(图像、文本、音频、深度、温度和IMU数据)的信息的AI模型,它将这些信息统一到单一的嵌入式表示空间中,使得机器能够更全面、直接地从多种信息中学习,而无需明
ImageBind多模态 AI 模型
0
ShortGPT利用 AI 自动创建视频和短内容
ShortGPT是一个用于自动短/视频内容创建的实验性人工智能框架。使创作者能够使用人工智能和自动化快速制作、管理和交付内容。它简化了视频创建、素材来源、配音合成和编辑任务。自动编辑框架:使用面向LL
ShortGPT利用 AI 自动创建视频和短内容
0
VLE视觉-语言多模态预训练模型
VLE (Vision-Language Encoder)是一种基于预训练文本和图像编码器的图像-文本多模态理解模型,可应用于如视觉问答、图像-文本检索等多模态判别任务。特别地,在对语言理解和推理能力
VLE视觉-语言多模态预训练模型
0