XTTS-v2

概要

XTTS-v2は、Coquiが開発した高度な音声生成モデルです。

わずか6秒の短い音声クリップを用いることで、既存の声を17種類の異なる言語にクローンできるのが最大の特徴です。

多言語対応、感情やスタイルの転送、クロス言語クローニング、高品質な24kHzサンプリングレートでの音声生成が可能で、大量のトレーニングデータを必要としません。

Coqui StudioやCoqui APIの基盤技術としても活用されており、音声合成や音声クローン技術に関心のある開発者や企業、または手軽に多言語対応の音声コンテンツを作成したいユーザーに適しています。

HuggingFace: https://huggingface.co/coqui/XTTS-v2