afrispeech-selector

概要

AfriSpeech Selectorは、142のアフリカ言語にわたる2200時間以上の音声データに簡単にアクセスできるCLIツールです。

TTS（Text-to-Speech）やASR（Automatic Speech Recognition）モデルのトレーニング用に、言語を録音時間で選択し、指定された形式（LJSpeech, Piper, VITS, MeloTTSなど）で音声ファイルとメタデータを出力します。

主にアフリカ言語の音声合成や音声認識モデルを開発・研究するエンジニアや研究者向けに設計されており、特定のトレーニングパイプラインに合わせたデータ準備を効率化します。

出力クリップはデフォルトで3〜15秒にフィルタリングされ、トレーニングに即座に使用可能です。

GitHub: https://github.com/AfriSpeech/afrispeech-selector