3,680 repos GH 3,565 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

audio-diffusion

★ 791 ⑂ 78 GPL-3.0 更新: 2024-09-25 GitHubで見る →

#Google Colab対応 #Gradio #Hugging Face Diffusers #Python #音楽生成

概要

このツールは、Hugging Faceのdiffusersパッケージを使い、画像ではなく音楽を生成する拡散モデルを適用します。

オーディオをメルスペクトログラムに変換し、DDPM（De-noising Diffusion Probabilistic Models）を訓練して音楽を合成します。

条件付きオーディオ生成、既存オーディオからのバリエーション生成（スタイル転送）、DDIM（De-noising Diffusion Implicit Models）の訓練、潜在拡散モデル、入力オーディオの一部をマスクする機能など、多様な生成手法に対応しています。

Google Colabで手軽に試せるため、拡散モデルを用いた音楽生成を研究・開発したいユーザーに適しています。

互換性・特徴

Python
Gradio
Google Colab対応
Hugging Face Diffusers
音楽生成

基本情報

ライセンス	GPL-3.0
Stars	791
Forks	78
カテゴリ	音楽生成
アクティビティ	mid

最新のissue

既存のデータセットの規模を拡大し、より多くの情報を追加する (更新: 2025-03-25 / expand the dataset)

最新リリース: v1.5.7 (2024-09-25)

GitHub: https://github.com/teticio/audio-diffusion

← 全リポジトリ一覧へ