3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

音声生成 / TTS

controlfoley

★ 138 ⑂ 3 Apache-2.0 更新: 2026-06-11 GitHubで見る →

#ClawHub #GPU必須 #HuggingFace #Python

概要

ControlFoleyは、ビデオ、テキスト、参照オーディオを組み合わせることで、高精度かつ制御可能なビデオ-オーディオ生成を実現する革新的なフレームワークです。

既存の単一モダリティに依存する手法とは異なり、入力モダリティ間の矛盾が生じた際でも、安定して一貫したオーディオを生成できる点が最大の特長です。

映画やアニメーションのダビング、効果音制作、ゲーム開発など、映像と音声の完璧な同期が求められるクリエイターや開発者、またマルチモーダルAIの研究者にとって、複雑な条件下での高品質なオーディオ生成を可能にします。

互換性・特徴

Python
GPU必須
Web UI
CLI
HuggingFace
ClawHub

基本情報

ライセンス	Apache-2.0
Stars	138
Forks	3
カテゴリ	音声生成 / TTS
アクティビティ	mid

最新のissue

Hugging Face上でVGGSound-TVCモデルのリリースを行う (更新: 2026-04-17 / Release VGGSound-TVC on Hugging Face)

GitHub: https://github.com/xiaomi-research/controlfoley

← 全リポジトリ一覧へ