ComfyUIで高精度リップシンク動画生成！「Infinite Talk」ワークフローとその実力

Stable DiffusionとComfyUIを活用し、高精度なリップシンク動画を生成できる「Infinite Talk」ワークフローが公開されました。音声と動画入力から自然な口の動きを持つ動画を効率的に作成可能で、RTX 3090では1秒の動画生成に約33秒という高速さを実現しています。

「Infinite Talk」ワークフローとは？

このワークフローは、入力された動画と音声から、話している人物の口の動きを自動的に同期させるリップシンク動画を生成します。V2V（Video-to-Video）変換技術を利用している点が特徴です。これにより、リアルな会話シーンやプレゼンテーション動画の作成が手軽になります。

開発者によると、NVIDIA RTX 3090環境では、動画1秒あたり約33秒で生成が可能とのこと。ComfyUIベースであるため、ノードベースの直感的な操作で複雑なパイプラインを構築できます。

「Infinite Talk」ワークフローはGitHubで公開されています。投稿者が調整した最適化版と、オリジナル版の両方が利用可能です。また、ステップバイステップの詳しい動画チュートリアルも提供されており、初めての方でも導入しやすい環境が整っています。

ステップバイステップ動画チュートリアル：

このワークフローに対しては、多くのユーザーから感謝の声が寄せられています。「オリジナルに非常に近い状態で維持されるのはなぜか？」といった技術的な質問も上がり、投稿者自身のワークフローとデフォルトのKJワークフローの違いや、デノイズ設定による変化について活発な議論が交わされました。

また、一部のユーザーからはGGUFモデルの利用について質問がありましたが、開発者は自身のワークフローではGGUFモデルは使用していないと回答しています。モデルのVRAM要件についても関心が寄せられ、16GBのモデルに対し11GBのVRAMで動作可能かといった疑問も浮上していました。

参考資料: