概要
nano-codecは、最小限のニューラルオーディオコーデックで、16kHzモノラル、128倍圧縮、10.2kbps、24Mパラメータという特徴を持ちます。
LibriSpeechデータセットで学習されており、高品質なオーディオの再構築が可能です。
DAC(Descript Audio Codec)に触発されたアーキテクチャを採用しており、ストライド畳み込みエンコーダと8レベルRVQデコーダを使用しています。
開発者や研究者が音声圧縮や生成モデルを扱う際に役立つツールで、既存のモデルを使って音声を再構築したり、独自のデータでモデルをトレーニングしたりできます。
互換性・特徴
- Python
- CLI
- GPU必須
- HuggingFace
- オーディオ処理
- 研究・開発
基本情報
| Stars | 3 |
| カテゴリ | 音楽・音声生成 |
| アクティビティ | low |
