3,363 repos GH 3,248 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

spoken-digits-asr

★ 1 MIT 更新: 2026-06-05 GitHubで見る →

概要

本プロジェクトは、Free Spoken Digit Datasetを用いてゼロから訓練された小型のCTC音声認識器です。

1秒間の数字音声(0~9)のWAVファイルを高精度(98%)で文字起こしする機能を提供します。

大規模な音声認識システムが「メル特徴量、シーケンスエンコーダ、CTCヘッド」といった基本的な構成要素から成り立っていることを、実際に手を動かして理解することを目的としています。

ラップトップのCPUでわずか約90秒で訓練が完了するため、音声認識の基礎やニューラルネットワークの仕組みを実践的に学びたい開発者や研究者に最適なツールです。

互換性・特徴

  • Python
  • PyTorch
  • CLI
  • 音声認識
  • CPU動作
  • 研究・学習用

基本情報

ライセンスMIT
Stars1
カテゴリASR / 音声認識
アクティビティlow

GitHub: https://github.com/Mathos34/spoken-digits-asr