概要
BigVGANは、NVIDIAが開発したユニバーサルなニューラルボコーダーであり、ICLR 2023で発表されました。
大規模なデータで学習され、高品質な音声合成を実現します。
特に、カスタムCUDAカーネルによる高速な推論、改善されたディスクリミネーターと損失関数、そして多種多様なオーディオタイプに対応したトレーニングが特徴です。
PyTorchで実装されており、Hugging Face Hubを通じて事前学習済みモデルに簡単にアクセスでき、Gradioを用いたインタラクティブなローカルデモも可能です。
音声合成の研究者や開発者、高速かつ高品質な音声生成を必要とするAIアプリケーション開発者を主な対象としています。
互換性・特徴
- PyTorch
- GPU必須
- Python
- Hugging Face対応
- Web UI
- CLI
基本情報
| ライセンス | MIT |
| Stars | 1,225 |
| Forks | 145 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | mid |
最新リリース: v2.4 (2024-09-05)
