概要
ControlFoleyは、動画から音声への生成を統合的かつ制御可能に行うフレームワークです。
動画、テキスト、参照音声を用いて、生成される音声を精密に制御できる点が特徴で、異なる入力モダリティ間で競合が発生した場合でも、堅牢な処理と高い制御性を維持します。
テキスト・動画からの音声生成、テキスト制御型動画音声生成、参照音声制御型動画音声生成、およびテキストからの音声生成といった幅広い機能を提供し、研究者や開発者が高品質なビデオ同期音声を生成することを目的としています。
互換性・特徴
- Python
- CLI
- Web UI
- Hugging Face
- GPU必須
- 研究ツール
基本情報
| ライセンス | Apache-2.0 |
| Stars | 1 |
| カテゴリ | 音楽・音声生成 |
| アクティビティ | low |
