NAVA-Text-to-Video

概要

NAVA-Text-to-Videoは、高度なオーディオビジュアル生成フレームワークです。

Native Audio-Visual Alignment (NAVA) 技術を駆使し、ビデオフレームと高忠実度オーディオを単一の拡散プロセス内で同時に生成することで、完璧な同期を実現します。

テキストから音声付きビデオ（T2AV）や画像から音声付きビデオ（I2AV）を作成でき、Qwen3-4Bベースのプロンプトリライターによる中国語キャプション最適化や、マルチスピーカー参照コンディショニングなどの機能を持ちます。

Webベースのインターフェースを提供し、高度なマルチモーダルAIに関心のある開発者、研究者、コンテンツクリエイターが、音声と映像が密接に連携した高品質なメディアコンテンツを生み出すことを想定しています。

GPUを必要とし、特に高VRAM環境が推奨されます。

GitHub: https://github.com/PRITHIVSAKTHIUR/NAVA-Text-to-Video