概要
ASRTは、TensorFlow.kerasを基盤とした深層学習ベースの中国語音声認識システムです。
深度畳み込みニューラルネットワーク、長短期記憶ニューラルネットワーク、注意機構、およびCTCを採用し、最大16秒の音声入力から中国語のピンインシーケンスを出力します。
訓練には高性能GPUが推奨され、Linux環境で利用可能。
Windowsでは推論のみサポートします。
CLIツールとしての機能に加え、HTTPおよびgRPCプロトコルによるAPIサーバーを提供し、Dockerでのデプロイも可能。
本ツールは、中国語音声認識技術に関心のある開発者や研究者、既存システムに音声認識機能を統合したいユーザーに適しています。
互換性・特徴
- Python
- TensorFlow
- CLI
- Web API
- 中国語対応
- GPU必須
基本情報
| ライセンス | GPL-3.0 |
| Stars | 8,374 |
| Forks | 1,898 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | mid |
最新のissue
- download_default_datalist 時に 502 Bad Gateway が発生 (更新: 2026-06-16 / download_default_datalist 时出现 502 Bad Gateway)
- 提案: FunASR/SenseVoiceとの性能比較 (更新: 2026-05-31 / 建议:与 FunASR/SenseVoice 进行性能对比)
- 独自データの学習時にエラーが発生 (更新: 2025-03-13 / 训练自己的数据报错)
- GPUでモデルを実行中にエラーが発生 (更新: 2025-01-01 / 用GPU跑模型报错)
- モデルが小さく、音声認識の精度が低い (更新: 2024-12-25 / 模型太小,语音识别不准确)
最新リリース: ASRT v1.3.0 Released (2022-05-20)
