voxtral-codec-pytoch

概要

Voxtral Codec PyTorchは、24kHzモノラル音声波形をTTS（Text-to-Speech）トレーニング用の離散コードに変換するVoxtral CodecのPyTorch実装です。

このツールは、超低ビットレートの音声生成を目的としたVoxtral TTSのバックボーン技術を提供します。

主な特徴として、因果畳み込み-トランスフォーマーオートエンコーダー、セマンティックVQと音響FSQによる潜在空間の分割（256セマンティック次元、36音響次元）、多解像度STFTディスクリミネーター、WhisperベースのASR蒸留サポートが挙げられます。

想定されるユーザーは、TTSシステム開発者、音声コーデック研究者、または超低ビットレート音声生成技術に関心のあるAI/MLエンジニアです。

GitHub: https://github.com/rishikksh20/voxtral-codec-pytoch