概要
Hallo-Liveは、テキスト入力からリアルタイムでアバターのビデオと音声を生成する先進的なフレームワークです。
因果的デュアルストリームDiTモデルを用いることで、ビデオと音声を同期させながらストリーミング形式で出力します。
NVIDIA H200 GPUを2台使用した場合、20.38 FPSの高速処理と0.94秒という低遅延を実現し、高いリップシンク精度、視覚的忠実度、音声品質を両立しています。
ライブ配信、インタラクティブコンテンツ、バーチャルアシスタントなど、リアルタイムで高品質なアバター生成を必要とする開発者や研究者、コンテンツクリエイターに最適です。
HuggingFaceでモデルが公開されており、導入も比較的容易です。
互換性・特徴
- リアルタイム
- GPU必須
- HuggingFace対応
- 音声生成
- 動画生成
基本情報
| ライセンス | MIT |
| Stars | 112 |
| Forks | 16 |
| カテゴリ | 画像生成 |
| アクティビティ | mid |
最新のissue
- チャンクの不整合について (更新: 2026-05-21 / About the chunk inconsistency)
- OOM (更新: 2026-05-19)
- stage1 モデル (更新: 2026-05-16 / stage1 model)
- ode_data_30k (更新: 2026-05-14)
- トレーニングデータセットについて (更新: 2026-05-09 / About the training datasets)
GitHub: https://github.com/fudan-generative-vision/Hallo-Live
