3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

LatentSync

★ 5.8k ⑂ 947 Apache-2.0 更新: 2025-06-20 GitHubで見る →

概要

LatentSyncは、音声入力に基づいて動画のリップシンクを生成する、エンドツーエンドの革新的な手法です。

既存のピクセル空間拡散や2段階生成アプローチとは異なり、オーディオ条件付き潜在拡散モデルと強力なStable Diffusionの能力を統合し、複雑な音響視覚相関を直接学習します。

512×512解像度でのトレーニングにより画質のぼやけを軽減し、時間的な一貫性を向上させ、中国語動画に対するパフォーマンス強化、そしてVRAM要件の最適化が図られています。

高品質かつ自然な動画リップシンクを求めるクリエイターや研究者にとって、強力なツールとなるでしょう。

互換性・特徴

  • Python
  • Diffusion Model
  • GPU必須
  • Hugging Face対応
  • 動画処理

基本情報

ライセンスApache-2.0
Stars5,776
Forks947
カテゴリ画像生成
アクティビティmid

最新のissue

GitHub: https://github.com/bytedance/LatentSync