3,004 repos GH 2,889 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

NAVA-Text-to-Video

★ 1 Apache-2.0 更新: 2026-06-05 GitHubで見る →

概要

NAVA-Text-to-Videoは、高度なオーディオビジュアル生成フレームワークです。

Native Audio-Visual Alignment (NAVA) 技術を駆使し、ビデオフレームと高忠実度オーディオを単一の拡散プロセス内で同時に生成することで、完璧な同期を実現します。

テキストから音声付きビデオ(T2AV)や画像から音声付きビデオ(I2AV)を作成でき、Qwen3-4Bベースのプロンプトリライターによる中国語キャプション最適化や、マルチスピーカー参照コンディショニングなどの機能を持ちます。

Webベースのインターフェースを提供し、高度なマルチモーダルAIに関心のある開発者、研究者、コンテンツクリエイターが、音声と映像が密接に連携した高品質なメディアコンテンツを生み出すことを想定しています。

GPUを必要とし、特に高VRAM環境が推奨されます。

互換性・特徴

  • Web UI
  • Python
  • GPU必須
  • Text-to-Video
  • Image-to-Video

基本情報

ライセンスApache-2.0
Stars1
カテゴリ動画生成
アクティビティlow

GitHub: https://github.com/PRITHIVSAKTHIUR/NAVA-Text-to-Video