概要
Voxtral Codec PyTorchは、24kHzモノラル音声波形をTTS(Text-to-Speech)トレーニング用の離散コードに変換するVoxtral CodecのPyTorch実装です。
このツールは、超低ビットレートの音声生成を目的としたVoxtral TTSのバックボーン技術を提供します。
主な特徴として、因果畳み込み-トランスフォーマーオートエンコーダー、セマンティックVQと音響FSQによる潜在空間の分割(256セマンティック次元、36音響次元)、多解像度STFTディスクリミネーター、WhisperベースのASR蒸留サポートが挙げられます。
想定されるユーザーは、TTSシステム開発者、音声コーデック研究者、または超低ビットレート音声生成技術に関心のあるAI/MLエンジニアです。
互換性・特徴
- PyTorch
- TTS
- 音声生成
- 研究用途
- Python
- CLI
基本情報
| Stars | 15 |
| Forks | 1 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | low |
