概要
noisekitは、自動音声認識(ASR)システムのロバスト性ベンチマークのために、ノイズ層別化された音声データセットを生成するツールです。
HuggingFaceのクリーンな音声-テキストデータセットを取り込み、`audiomentations`ライブラリを介して、テレコミュニケーション、悪いオーディオエンコーディング、ノイズの多い環境といった現実世界の劣化プリセットを適用します。
各出力にはPESQ、SNR、NISQAによるスコアリングが行われ、ノイズ耐性ベンチマークにすぐに利用できるJSONLマニフェストが生成されます。
ASRの研究者や開発者が、モデルの性能を詳細に分析し、改善に役立てることを想定しています。
PythonベースのCLIツールで、合成ノイズではないリアルな環境での評価に特化しています。
互換性・特徴
- Python
- CLI
- HuggingFace対応
- オーディオ処理
- データセット生成
- ASRベンチマーク
基本情報
| ライセンス | MIT |
| Stars | 1 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | low |