3,616 repos GH 3,501 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

音声生成 / TTS

AudioLDM

★ 2.9k ⑂ 266 NOASSERTION 更新: 2025-06-25 GitHubで見る →

#CLI #Colab #GPU必須 #Hugging Face Spaces #Python #Web UI

概要

AudioLDMは、テキスト入力からスピーチ、効果音、音楽などを生成できる革新的なオーディオ生成ツールです。

ICML 2023で発表され、テキストからの音声生成、既存のオーディオから類似のオーディオを生成するオーディオ・トゥ・オーディオ生成、さらにはテキストで指定したスタイルへのオーディオスタイル転送といった多機能を提供します。

利用者は詳細な形容詞や具体的な記述を用いることで生成品質を向上させることができます。

CLIを通じてPythonで利用可能であり、Gradioを利用したWebアプリや、Hugging Face Spaces、Colab、Replicateといったプラットフォームでも手軽に試すことが可能です。

開発者や研究者だけでなく、手軽に高品質なオーディオコンテンツを作成したい一般ユーザーにも適しています。

互換性・特徴

Python
CLI
Web UI
Hugging Face Spaces
Colab
GPU必須

基本情報

ライセンス	NOASSERTION
Stars	2,893
Forks	266
カテゴリ	音声生成 / TTS
アクティビティ	mid

最新のissue

AudioLDMをインストールできません (更新: 2026-03-16 / Can’t install AudioLDM)
ボール (更新: 2025-12-27 / мяч)
システム上でオーディオが無限に生成され続ける事象の調査 (更新: 2025-10-05 / Infinite audio generation)
`app.py`実行時に`AttributeError: module ‘gradio’ has no attribute ‘Box’` (更新: 2025-10-05 / `AttributeError: module ‘gradio’ has no attribute ‘Box’` when running `app.py`)

GitHub: https://github.com/haoheliu/AudioLDM

← 全リポジトリ一覧へ