HiggsAudiov2TokenizerUnofficial

概要

本ツールは、HuBERTのセマンティック特徴量を用いたHiggs Audio V2 Tokenizerの非公式PyTorch実装です。

960倍ダウンサンプリングと8層RVQによるセマンティック音響オーディオトークン化のための完全なトレーニングパイプラインを提供します。

公式実装にはないトレーニングコードが用意されており、Descript Audio Codecのアーキテクチャ要素も統合されています。

音声処理や機械学習、特にPyTorchでのオーディオトークン化モデル開発を行う研究者や開発者が、HubertモデルとCUDA対応GPUを用いてモデルのトレーニングや実験を行うことを想定しています。

GitHub: https://github.com/pujariaditya/HiggsAudiov2TokenizerUnofficial