概要
このプロジェクトは、Irodori-TTSをフォークし、echo-TTSのWeb UIとして機能する、Flow Matchingベースの高性能なテキスト音声変換(TTS)モデルです。
特徴として、高品質なFlow Matching TTS、ゼロショット音声クローニング、感情スタイルプリセットに加え、絵文字を活用した感情表現制御が挙げられます。
特にLLM APIを用いてテキストに感情を表す絵文字を自動付与し、感情豊かな読み上げを可能にします。
LoRAやフルファインチューニング、データセット作成ツールもサポートしており、開発者や研究者、高品質で表現豊かな日本語の音声合成を求めるクリエイターに適しています。
GradioベースのWeb UIも提供されており、直感的な操作が可能です。
互換性・特徴
- Python
- Web UI
- CLI
- 日本語対応
- 音声クローン
- LoRAファインチューニング
- LLM連携
- GPU対応
基本情報
| ライセンス | MIT |
| Stars | 31 |
| Forks | 5 |
| カテゴリ | TTS / 音声 |
| アクティビティ | low |