3,369 repos GH 3,254 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

voxtral-codec-pytoch

★ 15 ⑂ 1 更新: 2026-03-27 GitHubで見る →

概要

Voxtral Codec PyTorchは、24kHzモノラル音声波形をTTS(Text-to-Speech)トレーニング用の離散コードに変換するVoxtral CodecのPyTorch実装です。

このツールは、超低ビットレートの音声生成を目的としたVoxtral TTSのバックボーン技術を提供します。

主な特徴として、因果畳み込み-トランスフォーマーオートエンコーダー、セマンティックVQと音響FSQによる潜在空間の分割(256セマンティック次元、36音響次元)、多解像度STFTディスクリミネーター、WhisperベースのASR蒸留サポートが挙げられます。

想定されるユーザーは、TTSシステム開発者、音声コーデック研究者、または超低ビットレート音声生成技術に関心のあるAI/MLエンジニアです。

互換性・特徴

  • PyTorch
  • TTS
  • 音声生成
  • 研究用途
  • Python
  • CLI

基本情報

Stars15
Forks1
カテゴリ音声生成 / TTS
アクティビティlow

GitHub: https://github.com/rishikksh20/voxtral-codec-pytoch