VoxCPM

概要

VoxCPM2は、OpenBMBが開発した、テキストを直接音声に変換するトークナイザーフリーの画期的なTTSシステムです。

エンドツーエンドの拡散自己回帰アーキテクチャを採用し、人間のような自然で表現豊かな音声を生成します。

2Bパラメータと200万時間以上の多言語データで学習されており、30言語に対応。

自然言語による音声デザイン、参照音声からの高精度な音声クローニング（感情やスタイルを制御可能）、48kHzのスタジオ品質オーディオ出力といった高度な機能を持ちます。

リアルタイムストリーミングも可能で、完全にオープンソースかつ商用利用可能です。

高品質な多言語音声合成やクリエイティブな音声デザイン、声のクローニングを求める開発者や研究者に最適なツールです。