概要
本ツールは、HuBERTのセマンティック特徴量を用いたHiggs Audio V2 Tokenizerの非公式PyTorch実装です。
960倍ダウンサンプリングと8層RVQによるセマンティック音響オーディオトークン化のための完全なトレーニングパイプラインを提供します。
公式実装にはないトレーニングコードが用意されており、Descript Audio Codecのアーキテクチャ要素も統合されています。
音声処理や機械学習、特にPyTorchでのオーディオトークン化モデル開発を行う研究者や開発者が、HubertモデルとCUDA対応GPUを用いてモデルのトレーニングや実験を行うことを想定しています。
互換性・特徴
- Python
- PyTorch
- CLI
- GPU必須
基本情報
| Stars | 6 |
| Forks | 2 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | low |
GitHub: https://github.com/pujariaditya/HiggsAudiov2TokenizerUnofficial
