概要
ControlFoleyは、ビデオ、テキスト、参照オーディオを組み合わせることで、高精度かつ制御可能なビデオ-オーディオ生成を実現する革新的なフレームワークです。
既存の単一モダリティに依存する手法とは異なり、入力モダリティ間の矛盾が生じた際でも、安定して一貫したオーディオを生成できる点が最大の特長です。
映画やアニメーションのダビング、効果音制作、ゲーム開発など、映像と音声の完璧な同期が求められるクリエイターや開発者、またマルチモーダルAIの研究者にとって、複雑な条件下での高品質なオーディオ生成を可能にします。
互換性・特徴
- Python
- GPU必須
- Web UI
- CLI
- HuggingFace
- ClawHub
基本情報
| ライセンス | Apache-2.0 |
| Stars | 81 |
| Forks | 2 |
| カテゴリ | 音楽・音声生成 |
| アクティビティ | low |
最新のissue
- Hugging Face上でVGGSound-TVCモデルのリリースを行う (更新: 2026-04-17 / Release VGGSound-TVC on Hugging Face)
