1,772 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

Talker-T2AV

★ 12 Apache-2.0 更新: 2026-05-23 GitHubで見る →

概要

Talker-T2AVは、自己回帰拡散モデリングを使い、テキスト、音声、動画を連携させて生成するAIツールです。

Qwen3-0.6Bを共有バックボーンとしてテキスト・音声・動画の情報を統合的に扱い、WhisperX-VAEとLIA-Xで音声と動画をそれぞれ詳細化します。

テキストからの音声・動画生成(T2AV)、音声駆動型動画生成(A2V)、動画への音声吹き替え(V2A)といった多彩な用途に対応し、音声合成、動画生成、AIメディアコンテンツ開発に携わる研究者やエンジニアが主な対象です。

GPUを利用したPython環境での実行が想定されます。

互換性・特徴

  • Python
  • CLI
  • GPU必須
  • HuggingFace
  • PyTorch

基本情報

ライセンスApache-2.0
Stars12
カテゴリ音声生成 / TTS
アクティビティlow

GitHub: https://github.com/zhenye234/Talker-T2AV