3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

音声生成 / TTS

vits

★ 7.9k ⑂ 1,390 MIT 更新: 2023-12-06 GitHubで見る →

#CLI #Colab対応 #GPU必須 #Python #TTS #研究プロジェクト

概要

VITSは、エンドツーエンドのテキスト読み上げ（Text-to-Speech, TTS）システムであり、条件付き変分オートエンコーダと敵対的学習を組み合わせることで、従来の2ステージシステムを上回る自然な音声合成を実現します。

正規化フローによる変分推論と確率的duration predictorを用いることで、テキスト入力に対して多様なピッチとリズムで発話されるような、自然な「1対多」の関係を表現できるのが特徴です。

高品質な音声合成を研究・開発したい研究者や開発者、特にPythonでの機械学習モデル構築経験があり、表現力豊かなTTSシステムを求めるユーザーに適しています。

Colabでデモも利用可能です。

互換性・特徴

Python
TTS
研究プロジェクト
CLI
Colab対応
GPU必須

基本情報

ライセンス	MIT
Stars	7,868
Forks	1,390
カテゴリ	音声生成 / TTS
アクティビティ	mid

最新のissue

📋 ドキュメント改善提案 (更新: 2026-03-14 / 📋 Documentation Enhancement Suggestion)
prior encoderにおけるvolume-preserving flowの設計選択に関する質問 (更新: 2026-01-22 / Question on the design choice of volume-preserving flow in the prior encoder)
URDU言語向けPiple onnxファイルが必要 (更新: 2025-12-26 / Need Piple onnx file for URDU language)
Python 3.10.12でのVITSコードの実行失敗 (更新: 2025-11-18 / VITS codes failed to run for Python 3.10.12)
LJSPeechで必要なステップ数 (更新: 2025-11-13 / how many steps do we need in LJSPeech)

GitHub: https://github.com/jaywalnut310/vits

← 全リポジトリ一覧へ