3,137 repos GH 3,022 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

音声生成 / TTS

AudioLDM2

★ 2.6k ⑂ 209 NOASSERTION 更新: 2024-09-29 GitHubで見る →

#CLI #GPU必須 #Python #Text-to-Speech #Web UI

概要

AudioLDM 2は、テキストプロンプトからオーディオ（音楽を含む）、スピーチ、超解像インペインティングを生成できる強力なツールです。

特に、48kHzの高忠実度オーディオ生成をサポートするモデルが追加され、より高品質な出力が可能になりました。

Gradioを活用したWebアプリケーションと、コマンドラインインターフェース（CLI）の両方で利用できるため、開発者からコンテンツクリエイターまで幅広いユーザーが手軽に扱えます。

複数の事前学習済みモデルが提供され、CUDAやMPSといった多様なデバイスでの実行にも対応しています。

互換性・特徴

Text-to-Audio
Text-to-Speech
Python
CLI
Web UI
GPU必須

基本情報

ライセンス	NOASSERTION
Stars	2,628
Forks	209
カテゴリ	音声生成 / TTS
アクティビティ	mid

最新のissue

app.pyが何かを生成するが、アプリのURLが表示されない (更新: 2026-05-20 / app.py generate something but not show app url)
音声を生成できません。 (更新: 2026-03-01 / Unable to generate sound.)
「film_clap_cond1」CLAPで「embed_mode」に「audio」ではなく「text」が使用されるのはなぜですか？ (更新: 2026-01-15 / Why does "film_clap_cond1" CLAP use "embed_mode": "text" instead of "audio"?)
任意の時間生成をどのようにサポートしましたか（インプランティングがない場合） (更新: 2025-09-29 / How did you support arbituary time generation( whereas the inplanting doesn’t))
Pythonの例におけるエラー _get_initial_cache_position (更新: 2025-09-02 / Python Example Error _get_initial_cache_position)

GitHub: https://github.com/haoheliu/AudioLDM2

← 全リポジトリ一覧へ