概要
AfriSpeech Selectorは、142のアフリカ言語にわたる2200時間以上の音声データに簡単にアクセスできるCLIツールです。
TTS(Text-to-Speech)やASR(Automatic Speech Recognition)モデルのトレーニング用に、言語を録音時間で選択し、指定された形式(LJSpeech, Piper, VITS, MeloTTSなど)で音声ファイルとメタデータを出力します。
主にアフリカ言語の音声合成や音声認識モデルを開発・研究するエンジニアや研究者向けに設計されており、特定のトレーニングパイプラインに合わせたデータ準備を効率化します。
出力クリップはデフォルトで3〜15秒にフィルタリングされ、トレーニングに即座に使用可能です。
互換性・特徴
- CLI
- Python
- TTS
- ASR
- LJSpeech形式
- WAV
基本情報
| Stars | 1 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | low |
