3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

soundstorm-pytorch

★ 1.5k ⑂ 94 MIT 更新: 2025-04-24 GitHubで見る →

概要

このツールは、Google Deepmindが開発した効率的な並列オーディオ生成モデル「SoundStorm」をPyTorchで実装したものです。

Soundstreamの残差ベクトル量子化コードにMaskGiTを適用し、オーディオドメインに適したConformerアーキテクチャを採用しています。

主な特徴は、高速かつ高品質なオーディオ生成能力で、わずか18ステップで約2秒の音声を生成可能です。

また、事前に訓練されたSoundStreamモデルを組み込むことで、生オーディオデータから直接学習し、最先端の音声を生成できます。

想定されるユーザーは、音声合成やオーディオ生成に関する研究者や開発者、特にPyTorch環境でのモデル開発や実験を行う方々です。

互換性・特徴

  • Python
  • PyTorch
  • CLI
  • Huggingface対応
  • オーディオ生成
  • AI/機械学習

基本情報

ライセンスMIT
Stars1,545
Forks94
カテゴリ音声生成 / TTS
アクティビティmid

最新のissue

最新リリース: 0.6.1 (2025-04-24)

GitHub: https://github.com/lucidrains/soundstorm-pytorch