概要
AudioLDM 2は、テキストプロンプトからオーディオ(音楽を含む)、スピーチ、超解像インペインティングを生成できる強力なツールです。
特に、48kHzの高忠実度オーディオ生成をサポートするモデルが追加され、より高品質な出力が可能になりました。
Gradioを活用したWebアプリケーションと、コマンドラインインターフェース(CLI)の両方で利用できるため、開発者からコンテンツクリエイターまで幅広いユーザーが手軽に扱えます。
複数の事前学習済みモデルが提供され、CUDAやMPSといった多様なデバイスでの実行にも対応しています。
互換性・特徴
- Text-to-Audio
- Text-to-Speech
- Python
- CLI
- Web UI
- GPU必須
基本情報
| ライセンス | NOASSERTION |
| Stars | 2,628 |
| Forks | 209 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | mid |
最新のissue
- app.pyが何かを生成するが、アプリのURLが表示されない (更新: 2026-05-20 / app.py generate something but not show app url)
- 音声を生成できません。 (更新: 2026-03-01 / Unable to generate sound.)
- 「film_clap_cond1」CLAPで「embed_mode」に「audio」ではなく「text」が使用されるのはなぜですか? (更新: 2026-01-15 / Why does "film_clap_cond1" CLAP use "embed_mode": "text" instead of "audio"?)
- 任意の時間生成をどのようにサポートしましたか(インプランティングがない場合) (更新: 2025-09-29 / How did you support arbituary time generation( whereas the inplanting doesn’t))
- Pythonの例におけるエラー _get_initial_cache_position (更新: 2025-09-02 / Python Example Error _get_initial_cache_position)
