BigVGAN

概要

BigVGANは、NVIDIAが開発したユニバーサルなニューラルボコーダーであり、ICLR 2023で発表されました。

大規模なデータで学習され、高品質な音声合成を実現します。

特に、カスタムCUDAカーネルによる高速な推論、改善されたディスクリミネーターと損失関数、そして多種多様なオーディオタイプに対応したトレーニングが特徴です。

PyTorchで実装されており、Hugging Face Hubを通じて事前学習済みモデルに簡単にアクセスでき、Gradioを用いたインタラクティブなローカルデモも可能です。

音声合成の研究者や開発者、高速かつ高品質な音声生成を必要とするAIアプリケーション開発者を主な対象としています。

最新リリース: v2.4 (2024-09-05)

GitHub: https://github.com/NVIDIA/BigVGAN