概要
このリポジトリは、数秒の音声から声の特徴を学習し、任意のテキストをリアルタイムでその声で話すことができるSV2TTS(話者検証からマルチスピーカーテキスト読み上げ合成への転移学習)のオープンソース実装です。
ディープラーニングに基づく3段階のフレームワークで、声のクローン作成と合成を可能にします。
WindowsおよびLinux環境で動作し、NVIDIA GPUまたはCPUを利用してCLIおよびGUIツールボックスとして使用できます。
研究者、開発者、またはリアルタイム音声合成技術に関心のあるユーザーに適していますが、本技術は最新のものではないとされており、より高品質な代替案も提示されています。
互換性・特徴
- Python
- CLI
- GUI
- GPU対応
- Windows対応
- Linux対応
基本情報
| ライセンス | NOASSERTION |
| Stars | 59,730 |
| Forks | 9,402 |
| カテゴリ | TTS / 音声 |
| アクティビティ | mid |
最新のissue
- このプロジェクトをリアルタイム音声通話に使用できますか? (更新: 2026-03-16 / can i use this project for real time voice call ?)
- アラビア語の有料追加 (更新: 2026-03-07 / Add Arabic language for a fee)
- ImportError: libtorch_cpu.so: 共有オブジェクトに必要な実行可能スタックを有効にできません: 無効な引数 (更新: 2026-01-26 / ImportError: libtorch_cpu.so: cannot enable executable stack as shared object requires: Invalid argument)
- Tacotron 2でPostnetにCBHGベースを使用? (更新: 2025-12-18 / Tacotron 2 but using CBHG-based for Postnet?)
- `webrtcvad==2.0.10`のビルドに失敗しました (更新: 2025-12-11 / Failed to build `webrtcvad==2.0.10`)
GitHub: https://github.com/CorentinJ/Real-Time-Voice-Cloning