概要
VoxKitchenは、生の音声録音をクリーンで検査可能なトレーニングデータセットに変換するための、宣言型音声データ処理ツールキットです。
ASR(自動音声認識)、TTS(音声合成)、話者分析、データクリーニングにおける反復的なオーディオ前処理作業を、DockerベースのYAMLパイプラインで自動化します。
主な特徴として、Dockerファーストの実行環境、単一のYAMLファイルで定義されるパイプライン、51種類の組み込みオペレーター、中断からの再開可能性、および詳細な出力検査機能が挙げられます。
ASR訓練データやTTSデータセットの準備、話者のダイアライゼーション、言語タグ付け、音声品質チェック、またはカスタムスクリプトなしでのオーディオクリーニングを効率化したい開発者や研究者向けに設計されています。
互換性・特徴
- CLI
- Python
- Docker
- 音声処理
- AIデータセット準備
基本情報
| ライセンス | Apache-2.0 |
| Stars | 2 |
| カテゴリ | TTS / 音声 |
| アクティビティ | low |
最新リリース: v0.2.0 (2026-05-19)
