ComfyUI-VibeVoice

概要

ComfyUI-VibeVoiceは、MicrosoftのVibeVoiceをComfyUIに統合するカスタムノードです。

表現力豊かで長尺なマルチスピーカー会話音声を生成できる最先端のツールであり、最大4人の異なる話者によるダイアログやポッドキャストの作成に最適です。

既存の音声ファイルから高忠実度なボイスクローンを作成したり、ゼロショット生成と組み合わせたりすることが可能で、高度なアテンションメカニズムや4ビット量子化によるVRAM削減機能も備えています。

ComfyUIユーザーが、高品質かつ自然な会話音声を効率的に生成することを想定しています。

エラー: 確率テンソルに`inf`、`nan`、または0未満の要素が含まれています (更新: 2025-11-27 / Error: probability tensor contains either `inf`, `nan` or element < 0)
ComfyUI-Zluda環境での機能開発とトラブルシューティング (更新: 2025-10-26 / Working with ComfyUI-Zluda)
ストリーミングモードの要件と推論完了前のオーディオ再生 (更新: 2025-10-02 / streaming mode ? or start audio play while inferecing is not finished)
eager attention有効でもモデルロード失敗: FlashAttention2がオンでも使用不可 (更新: 2025-09-30 / Failed to load model even with eager attention: FlashAttention2 has been toggled on, but it cannot be used)
AI生成物の出力における音楽コンテンツの扱いとその課題 (更新: 2025-09-30 / Music in the Output)

最新リリース: v1.5.1 – Maintenance release (2025-09-25)

GitHub: https://github.com/wildminder/ComfyUI-VibeVoice