3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

BigVGAN

★ 1.2k ⑂ 145 MIT 更新: 2024-09-05 GitHubで見る →

概要

BigVGANは、NVIDIAが開発したユニバーサルなニューラルボコーダーであり、ICLR 2023で発表されました。

大規模なデータで学習され、高品質な音声合成を実現します。

特に、カスタムCUDAカーネルによる高速な推論、改善されたディスクリミネーターと損失関数、そして多種多様なオーディオタイプに対応したトレーニングが特徴です。

PyTorchで実装されており、Hugging Face Hubを通じて事前学習済みモデルに簡単にアクセスでき、Gradioを用いたインタラクティブなローカルデモも可能です。

音声合成の研究者や開発者、高速かつ高品質な音声生成を必要とするAIアプリケーション開発者を主な対象としています。

互換性・特徴

  • PyTorch
  • GPU必須
  • Python
  • Hugging Face対応
  • Web UI
  • CLI

基本情報

ライセンスMIT
Stars1,225
Forks145
カテゴリ音声生成 / TTS
アクティビティmid

最新リリース: v2.4 (2024-09-05)

GitHub: https://github.com/NVIDIA/BigVGAN