3,680 repos GH 3,565 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

audio-diffusion

★ 791 ⑂ 78 GPL-3.0 更新: 2024-09-25 GitHubで見る →

概要

このツールは、Hugging Faceのdiffusersパッケージを使い、画像ではなく音楽を生成する拡散モデルを適用します。

オーディオをメルスペクトログラムに変換し、DDPM(De-noising Diffusion Probabilistic Models)を訓練して音楽を合成します。

条件付きオーディオ生成、既存オーディオからのバリエーション生成(スタイル転送)、DDIM(De-noising Diffusion Implicit Models)の訓練、潜在拡散モデル、入力オーディオの一部をマスクする機能など、多様な生成手法に対応しています。

Google Colabで手軽に試せるため、拡散モデルを用いた音楽生成を研究・開発したいユーザーに適しています。

互換性・特徴

  • Python
  • Gradio
  • Google Colab対応
  • Hugging Face Diffusers
  • 音楽生成

基本情報

ライセンスGPL-3.0
Stars791
Forks78
カテゴリ音楽生成
アクティビティmid

最新のissue

最新リリース: v1.5.7 (2024-09-25)

GitHub: https://github.com/teticio/audio-diffusion