概要
このツールは、ComfyUI内で高品質なテキスト読み上げ(TTS)とキャプション生成を可能にするカスタムノードセットです。
Dia2 TTSモデルを利用し、テキストプロンプトから音声とタイムスタンプ付きキャプション(SRT、SSA/ASS、VTT形式)を生成します。
複数話者対応、句読点を考慮した文章グループ化、特殊トークンによる音響効果の挿入が特徴です。
ComfyUIユーザーが、動画やコンテンツ制作において、表現豊かな音声と字幕を効率的に作成できるよう設計されています。
GPU(CUDA 12.8以降)での使用が推奨されますが、CPUでも動作します。
互換性・特徴
- ComfyUI対応
- GPU推奨
- Python
- 音声合成 (TTS)
- 字幕生成
- AIモデル利用
基本情報
| ライセンス | MIT |
| Stars | 1 |
| Forks | 2 |
| カテゴリ | ComfyUI |
| アクティビティ | low |
GitHub: https://github.com/lord-lethris/ComfyUI-lethris-dia2
