3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

音声生成 / TTS

tango

★ 1.2k ⑂ 105 NOASSERTION 更新: 2025-07-29 GitHubで見る →

#GitHub #Google Colab対応 #GPU推奨 #Hugging Face #Python #Web UI

概要

Tangoは、LLM（Flan-T5）によってガイドされる潜在拡散モデル（LDM）を用いた、テキストからオーディオを生成するツールです。

テキストプロンプトから、人間の声、動物の鳴き声、自然音、人工音、効果音など、多様なリアルなオーディオを生成できます。

少ないデータセットでの学習にもかかわらず、最先端のText-to-Audio（TTA）モデルに匹敵する性能を発揮し、研究者や開発者向けにモデルとコードが公開されています。

Tango 2ではDPOによるアライメント学習が導入され、さらに品質が向上しています。

Google Colabで手軽に試すことができ、高速版のTangoFluxも存在します。

互換性・特徴

Google Colab対応
Python
Hugging Face
Web UI
GPU推奨
GitHub

基本情報

ライセンス	NOASSERTION
Stars	1,237
Forks	105
カテゴリ	音声生成 / TTS
アクティビティ	mid

最新のissue

適切なloss値とは何か？ trainとval lossが約6.5-6.6で停滞している問題 (更新: 2025-04-17 / What is the proper loss value? My train and val loss is around 6.5-6.6 and do not drop.)
Transformersライブラリでモデルを実行する際のエラー発生 (更新: 2025-02-26 / Transformers running model error)
生成されたサウンドの長さが期待通りにならない状況への対応 (更新: 2025-01-01 / length of generated sounds)
AudioCapsデータセットのダウンロードプロセスに関する課題 (更新: 2024-12-23 / Downloading AudioCaps data)
TangoとTango 2を用いたシステムにおけるFAD値の分析 (更新: 2024-10-26 / FAD in Tango and Tango 2)

GitHub: https://github.com/declare-lab/tango

← 全リポジトリ一覧へ