概要
XTTS-v2は、Coquiが開発した高度な音声生成モデルです。
わずか6秒の短い音声クリップを用いることで、既存の声を17種類の異なる言語にクローンできるのが最大の特徴です。
多言語対応、感情やスタイルの転送、クロス言語クローニング、高品質な24kHzサンプリングレートでの音声生成が可能で、大量のトレーニングデータを必要としません。
Coqui StudioやCoqui APIの基盤技術としても活用されており、音声合成や音声クローン技術に関心のある開発者や企業、または手軽に多言語対応の音声コンテンツを作成したいユーザーに適しています。
互換性・特徴
- Python
- CLI
- GPU必須
- Web UI
- 日本語対応
基本情報
| ライセンス | other |
| Likes | 3,524 |
| Downloads | 7,803,740 |
| Pipeline | text-to-speech |
| カテゴリ | TTS / 音声 |
| アクティビティ | mid |
HuggingFace: https://huggingface.co/coqui/XTTS-v2