3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

ComfyUI-lethris-dia2

★ 1 ⑂ 2 MIT 更新: 2025-12-12 GitHubで見る →

概要

このツールは、ComfyUI内で高品質なテキスト読み上げ(TTS)とキャプション生成を可能にするカスタムノードセットです。

Dia2 TTSモデルを利用し、テキストプロンプトから音声とタイムスタンプ付きキャプション(SRT、SSA/ASS、VTT形式)を生成します。

複数話者対応、句読点を考慮した文章グループ化、特殊トークンによる音響効果の挿入が特徴です。

ComfyUIユーザーが、動画やコンテンツ制作において、表現豊かな音声と字幕を効率的に作成できるよう設計されています。

GPU(CUDA 12.8以降)での使用が推奨されますが、CPUでも動作します。

互換性・特徴

  • ComfyUI対応
  • GPU推奨
  • Python
  • 音声合成 (TTS)
  • 字幕生成
  • AIモデル利用

基本情報

ライセンスMIT
Stars1
Forks2
カテゴリComfyUI
アクティビティlow

GitHub: https://github.com/lord-lethris/ComfyUI-lethris-dia2