nano-codec

概要

nano-codecは、最小限のニューラルオーディオコーデックであり、16kHzモノラルの音声を128倍に圧縮し、10.2kbpsの低ビットレートで再構築できるツールです。

約2400万のパラメータを持ち、LibriSpeechで事前学習されたモデルがHuggingFaceで公開されています。

DAC (Descript Audio Codec) にインスパイアされたアーキテクチャを採用し、Python製のCLIツールとして提供されており、オーディオの再構築や独自のモデル学習が可能です。

音声処理の研究者、開発者、または低帯域幅での音声伝送に関心のあるユーザーに適しています。

GitHub: https://github.com/taresh18/nano-codec