VoxKitchen

概要

VoxKitchenは、生の音声録音をクリーンで検査可能なトレーニングデータセットに変換するための、宣言型音声データ処理ツールキットです。

ASR（自動音声認識）、TTS（音声合成）、話者分析、データクリーニングにおける反復的なオーディオ前処理作業を、DockerベースのYAMLパイプラインで自動化します。

主な特徴として、Dockerファーストの実行環境、単一のYAMLファイルで定義されるパイプライン、51種類の組み込みオペレーター、中断からの再開可能性、および詳細な出力検査機能が挙げられます。

ASR訓練データやTTSデータセットの準備、話者のダイアライゼーション、言語タグ付け、音声品質チェック、またはカスタムスクリプトなしでのオーディオクリーニングを効率化したい開発者や研究者向けに設計されています。

最新リリース: v0.3.1 (2026-06-16)

GitHub: https://github.com/XqFeng-Josie/VoxKitchen