1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

AudioLDM

★ 2.9k ⑂ 267 NOASSERTION 更新: 2025-06-25 GitHubで見る →

概要

AudioLDMは、テキスト入力からスピーチ、効果音、音楽などを生成できる革新的なオーディオ生成ツールです。

ICML 2023で発表され、テキストからの音声生成、既存のオーディオから類似のオーディオを生成するオーディオ・トゥ・オーディオ生成、さらにはテキストで指定したスタイルへのオーディオスタイル転送といった多機能を提供します。

利用者は詳細な形容詞や具体的な記述を用いることで生成品質を向上させることができます。

CLIを通じてPythonで利用可能であり、Gradioを利用したWebアプリや、Hugging Face Spaces、Colab、Replicateといったプラットフォームでも手軽に試すことが可能です。

開発者や研究者だけでなく、手軽に高品質なオーディオコンテンツを作成したい一般ユーザーにも適しています。

互換性・特徴

  • Python
  • CLI
  • Web UI
  • Hugging Face Spaces
  • Colab
  • GPU必須

基本情報

ライセンスNOASSERTION
Stars2,883
Forks267
カテゴリ音楽・音声生成
アクティビティmid

最新のissue

GitHub: https://github.com/haoheliu/AudioLDM