3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

tango

★ 1.2k ⑂ 105 NOASSERTION 更新: 2025-07-29 GitHubで見る →

概要

Tangoは、LLM(Flan-T5)によってガイドされる潜在拡散モデル(LDM)を用いた、テキストからオーディオを生成するツールです。

テキストプロンプトから、人間の声、動物の鳴き声、自然音、人工音、効果音など、多様なリアルなオーディオを生成できます。

少ないデータセットでの学習にもかかわらず、最先端のText-to-Audio(TTA)モデルに匹敵する性能を発揮し、研究者や開発者向けにモデルとコードが公開されています。

Tango 2ではDPOによるアライメント学習が導入され、さらに品質が向上しています。

Google Colabで手軽に試すことができ、高速版のTangoFluxも存在します。

互換性・特徴

  • Google Colab対応
  • Python
  • Hugging Face
  • Web UI
  • GPU推奨
  • GitHub

基本情報

ライセンスNOASSERTION
Stars1,237
Forks105
カテゴリ音声生成 / TTS
アクティビティmid

最新のissue

GitHub: https://github.com/declare-lab/tango