概要
このツールは、ComfyUI用のVoxCPM2テキスト読み上げノードを提供します。
200万時間以上の多言語音声データで訓練されたトークナイザー不要のモデルで、30言語に対応し、48kHzのスタジオ品質の音声を生成可能です。
主な機能には、自然言語での音声デザイン、短い参照クリップからの声のクローン作成、LoRAによる細かなスタイル調整、ComfyUI内でのLoRA学習パイプラインが含まれます。
ComfyUIで高品質な多言語TTS機能や音声クローン、カスタム音声スタイルを生成したい開発者やコンテンツクリエーターを想定しています。
互換性・特徴
- ComfyUI対応
- Python
- 多言語対応
- テキスト読み上げ
- 音声クローン
- LoRA対応
基本情報
| ライセンス | Apache-2.0 |
| Stars | 104 |
| Forks | 5 |
| カテゴリ | ComfyUI |
| アクティビティ | mid |
最新のissue
- CFGを3のように高くするとクローン音声の感情を制御できるが、オーディオが長くなると歪む (更新: 2026-05-03 / with higher CFG like 3 you can control emotion of cloned voice but it gets distorted as audio gets longer !)
最新リリース: 0.3.1 (2026-04-12)
