audio-diffusion-pytorch

概要

audio-diffusion-pytorchは、PyTorchで拡散モデルを用いてオーディオを生成するための多機能ライブラリです。

無条件およびテキスト条件付きのオーディオ生成、拡散オートエンコーディング、アップサンプリング、ボコーディングといった多様な機能をサポートしています。

提供されるモデルは波形ベースですが、U-Net、拡散モデル、サンプラーは汎用性が高く、他のオーディオ形式にも柔軟にカスタマイズできます。

事前学習済みモデルは含まれていないため、主に独自のカスタムモデルを構築したい研究者や開発者を想定しています。

RuntimeError: テンソルaのサイズ(91)が非単一次元2でテンソルb(90)と不一致 (更新: 2024-11-21 / RuntimeError: The size of tensor a (91) must match the size of tensor b (90) at non-singleton dimension 2)
無条件生成モデルがノイズを生成する問題が発生しています。 (更新: 2024-11-19 / Unconditional Generation generates noise)
無条件モデルは偽の人間音声を許容可能な品質で生成するが、音楽では失敗する。 (更新: 2024-07-10 / Unconditional model generates okay quality of fake human voice but failed on music.)
損失曲線に予期せぬ奇妙なスパイクが頻繁に発生している。 (更新: 2024-05-14 / Weird spikes in the loss)
条件付き生成のメカニズムと使用方法に関するいくつかの質問。 (更新: 2023-10-13 / Questions about conditional generation)

最新リリース: v0.1.3 (2023-02-26)

GitHub: https://github.com/archinetai/audio-diffusion-pytorch