3,137 repos GH 3,022 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

AudioLDM2

★ 2.6k ⑂ 209 NOASSERTION 更新: 2024-09-29 GitHubで見る →

概要

AudioLDM 2は、テキストプロンプトからオーディオ(音楽を含む)、スピーチ、超解像インペインティングを生成できる強力なツールです。

特に、48kHzの高忠実度オーディオ生成をサポートするモデルが追加され、より高品質な出力が可能になりました。

Gradioを活用したWebアプリケーションと、コマンドラインインターフェース(CLI)の両方で利用できるため、開発者からコンテンツクリエイターまで幅広いユーザーが手軽に扱えます。

複数の事前学習済みモデルが提供され、CUDAやMPSといった多様なデバイスでの実行にも対応しています。

互換性・特徴

  • Text-to-Audio
  • Text-to-Speech
  • Python
  • CLI
  • Web UI
  • GPU必須

基本情報

ライセンスNOASSERTION
Stars2,628
Forks209
カテゴリ音声生成 / TTS
アクティビティmid

最新のissue

GitHub: https://github.com/haoheliu/AudioLDM2