FlashTalk-Training-Code

概要

このリポジトリは、FlashTalkの非公式なトレーニングコード実装です。

FlashTalkは音声駆動型のデジタルヒューマンモデルであり、リアルタイムで無制限の長さのビデオを生成できます。

本ツールは、InfiniteTalkを基盤とし、40ステップのCFGベースモデルを4ステップのCFGフリーな自己修正モデルに圧縮することで、手を使った上半身データにおいて高いパフォーマンスを維持します。

主な特徴として、完全なトレーニングパイプライン、エンドツーエンドのデータサポート、公開されている事前学習済み重み、および評価サポートが挙げられます。

主にFlashTalkのトレーニングレシピを再現したい開発者や研究者で、大規模なGPUリソースを持つユーザーを想定しています。

GitHub: https://github.com/nanxiaolu/FlashTalk-Training-Code