3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

vits

★ 7.9k ⑂ 1,390 MIT 更新: 2023-12-06 GitHubで見る →

概要

VITSは、エンドツーエンドのテキスト読み上げ(Text-to-Speech, TTS)システムであり、条件付き変分オートエンコーダと敵対的学習を組み合わせることで、従来の2ステージシステムを上回る自然な音声合成を実現します。

正規化フローによる変分推論と確率的duration predictorを用いることで、テキスト入力に対して多様なピッチとリズムで発話されるような、自然な「1対多」の関係を表現できるのが特徴です。

高品質な音声合成を研究・開発したい研究者や開発者、特にPythonでの機械学習モデル構築経験があり、表現力豊かなTTSシステムを求めるユーザーに適しています。

Colabでデモも利用可能です。

互換性・特徴

  • Python
  • TTS
  • 研究プロジェクト
  • CLI
  • Colab対応
  • GPU必須

基本情報

ライセンスMIT
Stars7,868
Forks1,390
カテゴリ音声生成 / TTS
アクティビティmid

最新のissue

GitHub: https://github.com/jaywalnut310/vits