3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

音声生成 / TTS

soundstorm-pytorch

★ 1.5k ⑂ 94 MIT 更新: 2025-04-24 GitHubで見る →

#AI/機械学習 #CLI #Python #PyTorch #オーディオ生成

概要

このツールは、Google Deepmindが開発した効率的な並列オーディオ生成モデル「SoundStorm」をPyTorchで実装したものです。

Soundstreamの残差ベクトル量子化コードにMaskGiTを適用し、オーディオドメインに適したConformerアーキテクチャを採用しています。

主な特徴は、高速かつ高品質なオーディオ生成能力で、わずか18ステップで約2秒の音声を生成可能です。

また、事前に訓練されたSoundStreamモデルを組み込むことで、生オーディオデータから直接学習し、最先端の音声を生成できます。

想定されるユーザーは、音声合成やオーディオ生成に関する研究者や開発者、特にPyTorch環境でのモデル開発や実験を行う方々です。

互換性・特徴

Python
PyTorch
CLI
Huggingface対応
オーディオ生成
AI/機械学習

基本情報

ライセンス	MIT
Stars	1,545
Forks	94
カテゴリ	音声生成 / TTS
アクティビティ	mid

最新のissue

どの韓国語の論文/音声モデルですか？ (更新: 2025-04-27 / Which Korean Paper/Audio Model?)
これは完了していますか？ (更新: 2025-03-16 / Is this complete?)
モデル text_to_semantic.load(‘/path/to/trained/model.pt’) はどこで入手できますか？ (更新: 2025-03-03 / where I can find model text_to_semantic.load(‘/path/to/trained/model.pt’))
質問: 利用可能な事前学習済みモデルはありますか？ (更新: 2024-11-26 / Question: Is there a pre-trained model we can use?)
なぜここにこの行が必要なのですか？ (更新: 2024-03-21 / why we need this line here?)

最新リリース: 0.6.1 (2025-04-24)

GitHub: https://github.com/lucidrains/soundstorm-pytorch

← 全リポジトリ一覧へ