概要
このツールは、Hugging Faceのdiffusersパッケージを使い、画像ではなく音楽を生成する拡散モデルを適用します。
オーディオをメルスペクトログラムに変換し、DDPM(De-noising Diffusion Probabilistic Models)を訓練して音楽を合成します。
条件付きオーディオ生成、既存オーディオからのバリエーション生成(スタイル転送)、DDIM(De-noising Diffusion Implicit Models)の訓練、潜在拡散モデル、入力オーディオの一部をマスクする機能など、多様な生成手法に対応しています。
Google Colabで手軽に試せるため、拡散モデルを用いた音楽生成を研究・開発したいユーザーに適しています。
互換性・特徴
- Python
- Gradio
- Google Colab対応
- Hugging Face Diffusers
- 音楽生成
基本情報
| ライセンス | GPL-3.0 |
| Stars | 791 |
| Forks | 78 |
| カテゴリ | 音楽生成 |
| アクティビティ | mid |
最新のissue
- 既存のデータセットの規模を拡大し、より多くの情報を追加する (更新: 2025-03-25 / expand the dataset)
最新リリース: v1.5.7 (2024-09-25)
