概要
Talker-T2AVは、自己回帰拡散モデリングを使い、テキスト、音声、動画を連携させて生成するAIツールです。
Qwen3-0.6Bを共有バックボーンとしてテキスト・音声・動画の情報を統合的に扱い、WhisperX-VAEとLIA-Xで音声と動画をそれぞれ詳細化します。
テキストからの音声・動画生成(T2AV)、音声駆動型動画生成(A2V)、動画への音声吹き替え(V2A)といった多彩な用途に対応し、音声合成、動画生成、AIメディアコンテンツ開発に携わる研究者やエンジニアが主な対象です。
GPUを利用したPython環境での実行が想定されます。
互換性・特徴
- Python
- CLI
- GPU必須
- HuggingFace
- PyTorch
基本情報
| ライセンス | Apache-2.0 |
| Stars | 12 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | low |
