概要
このリポジトリは、FlashTalkの非公式なトレーニングコード実装です。
FlashTalkは音声駆動型のデジタルヒューマンモデルであり、リアルタイムで無制限の長さのビデオを生成できます。
本ツールは、InfiniteTalkを基盤とし、40ステップのCFGベースモデルを4ステップのCFGフリーな自己修正モデルに圧縮することで、手を使った上半身データにおいて高いパフォーマンスを維持します。
主な特徴として、完全なトレーニングパイプライン、エンドツーエンドのデータサポート、公開されている事前学習済み重み、および評価サポートが挙げられます。
主にFlashTalkのトレーニングレシピを再現したい開発者や研究者で、大規模なGPUリソースを持つユーザーを想定しています。
互換性・特徴
- Python
- GPU必須
- CLI
- 非公式実装
基本情報
| ライセンス | Apache-2.0 |
| Stars | 6 |
| カテゴリ | 動画生成 |
| アクティビティ | low |
GitHub: https://github.com/nanxiaolu/FlashTalk-Training-Code