概要
VoxCPM2は、OpenBMBが開発した、テキストを直接音声に変換するトークナイザーフリーの画期的なTTSシステムです。
エンドツーエンドの拡散自己回帰アーキテクチャを採用し、人間のような自然で表現豊かな音声を生成します。
2Bパラメータと200万時間以上の多言語データで学習されており、30言語に対応。
自然言語による音声デザイン、参照音声からの高精度な音声クローニング(感情やスタイルを制御可能)、48kHzのスタジオ品質オーディオ出力といった高度な機能を持ちます。
リアルタイムストリーミングも可能で、完全にオープンソースかつ商用利用可能です。
高品質な多言語音声合成やクリエイティブな音声デザイン、声のクローニングを求める開発者や研究者に最適なツールです。
互換性・特徴
- 多言語対応
- GPU必須
- Python
- Web UI
- オープンソース
- リアルタイム
基本情報
| ライセンス | Apache-2.0 |
| Stars | 18,971 |
| Forks | 2,259 |
| カテゴリ | TTS / 音声 |
| アクティビティ | high |
最新のissue
- MiniCPM-oでVoxCPM2は計画されていますか?— もしそうでない場合、リアルタイム韓国語音声への道 (更新: 2026-05-16 / Is VoxCPM2 planned for MiniCPM-o? — and if not, the path to real-time Korean speech)
- カタルーニャ語を追加するための学習アプローチと戦略 (更新: 2026-05-15 / Training Approach and Strategies for adding Catalan)
- 究極のクローンモードにおいて、合成ごとに音色に違いが生じる問題 (更新: 2026-05-15 / 极致克隆模式,每次合成后音色有区别)
- より多くの感情表現タグを導入する方法について (更新: 2026-05-15 / How to introduce more emotive tags?)
- ファインチューニング後、制御可能なクローンモードでの指示追従能力低下の問題について (更新: 2026-05-15 / 关于微调之后,可控克隆模式对于指令遵循能力下降的问题)
最新リリース: v2.0.3: fine-tuning validation, runtime stability, and streaming improvements (2026-05-11)
