概要
AudioLDMは、テキスト入力からスピーチ、効果音、音楽などを生成できる革新的なオーディオ生成ツールです。
ICML 2023で発表され、テキストからの音声生成、既存のオーディオから類似のオーディオを生成するオーディオ・トゥ・オーディオ生成、さらにはテキストで指定したスタイルへのオーディオスタイル転送といった多機能を提供します。
利用者は詳細な形容詞や具体的な記述を用いることで生成品質を向上させることができます。
CLIを通じてPythonで利用可能であり、Gradioを利用したWebアプリや、Hugging Face Spaces、Colab、Replicateといったプラットフォームでも手軽に試すことが可能です。
開発者や研究者だけでなく、手軽に高品質なオーディオコンテンツを作成したい一般ユーザーにも適しています。
互換性・特徴
- Python
- CLI
- Web UI
- Hugging Face Spaces
- Colab
- GPU必須
基本情報
| ライセンス | NOASSERTION |
| Stars | 2,883 |
| Forks | 267 |
| カテゴリ | 音楽・音声生成 |
| アクティビティ | mid |
最新のissue
- AudioLDMをインストールできません (更新: 2026-03-16 / Can’t install AudioLDM)
- ボール (更新: 2025-12-27 / мяч)
- Infinite audio generation (更新: 2025-10-05)
- `app.py`実行時に`AttributeError: module ‘gradio’ has no attribute ‘Box’` (更新: 2025-10-05 / `AttributeError: module ‘gradio’ has no attribute ‘Box’` when running `app.py`)