概要
Tangoは、LLM(Flan-T5)によってガイドされる潜在拡散モデル(LDM)を用いた、テキストからオーディオを生成するツールです。
テキストプロンプトから、人間の声、動物の鳴き声、自然音、人工音、効果音など、多様なリアルなオーディオを生成できます。
少ないデータセットでの学習にもかかわらず、最先端のText-to-Audio(TTA)モデルに匹敵する性能を発揮し、研究者や開発者向けにモデルとコードが公開されています。
Tango 2ではDPOによるアライメント学習が導入され、さらに品質が向上しています。
Google Colabで手軽に試すことができ、高速版のTangoFluxも存在します。
互換性・特徴
- Google Colab対応
- Python
- Hugging Face
- Web UI
- GPU推奨
- GitHub
基本情報
| ライセンス | NOASSERTION |
| Stars | 1,237 |
| Forks | 105 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | mid |
最新のissue
- 適切なloss値とは何か? trainとval lossが約6.5-6.6で停滞している問題 (更新: 2025-04-17 / What is the proper loss value? My train and val loss is around 6.5-6.6 and do not drop.)
- Transformersライブラリでモデルを実行する際のエラー発生 (更新: 2025-02-26 / Transformers running model error)
- 生成されたサウンドの長さが期待通りにならない状況への対応 (更新: 2025-01-01 / length of generated sounds)
- AudioCapsデータセットのダウンロードプロセスに関する課題 (更新: 2024-12-23 / Downloading AudioCaps data)
- TangoとTango 2を用いたシステムにおけるFAD値の分析 (更新: 2024-10-26 / FAD in Tango and Tango 2)
