spoken-digits-asr

概要

本プロジェクトは、Free Spoken Digit Datasetを用いてゼロから訓練された小型のCTC音声認識器です。

1秒間の数字音声（0～9）のWAVファイルを高精度（98%）で文字起こしする機能を提供します。

大規模な音声認識システムが「メル特徴量、シーケンスエンコーダ、CTCヘッド」といった基本的な構成要素から成り立っていることを、実際に手を動かして理解することを目的としています。

ラップトップのCPUでわずか約90秒で訓練が完了するため、音声認識の基礎やニューラルネットワークの仕組みを実践的に学びたい開発者や研究者に最適なツールです。

GitHub: https://github.com/Mathos34/spoken-digits-asr