概要
Irodori-TTSは、Flow Matching技術を用いたテキスト音声合成モデルで、絵文字によるスタイル制御が可能です。
参照音声からのゼロショット音声クローニング、キャプションによるスタイル制御、自動的な音声長の予測、生成音声への自動透かし入れといった多様な機能を持ちます。
また、マルチGPUでの学習やPEFT/LoRAによるファインチューニングにも対応しており、CLI、Gradio Web UI、HuggingFace Hubを通じて柔軟な推論が可能です。
研究者や開発者が高度な音声合成モデルを構築・利用するのに適しています。
互換性・特徴
- Python
- CLI
- Web UI
- GPU必須
- 音声合成
- スタイル制御
基本情報
| ライセンス | MIT |
| Stars | 967 |
| Forks | 109 |
| カテゴリ | 画像生成 |
| アクティビティ | mid |
最新のissue
- カスタム英語発音辞書または英語テキスト入力のサポートに関する質問 (更新: 2026-05-29 / Question about support for custom English pronunciation dictionaries or English text input)
- ファインチューニングされた絵文字アノテーションモデルに関する質問 (更新: 2026-05-18 / Question about the fine-tuned emoji annotation model)
