概要
choughは、Parakeet TDT 0.6b V3とsherpa-onnxを基盤とする、高速かつメモリ効率に優れたCLIベースの音声認識(ASR)ツールです。
7〜20倍のリアルタイム処理速度を実現し、オーディオをチャンク処理することでメモリ消費を抑えます。
ffmpegがサポートするあらゆるオーディオおよびビデオ形式に対応し、モデルの自動ダウンロード機能によりセットアップは不要です。
CPUのみで動作し、テキスト、JSON、VTT形式での出力に対応。
バッチ処理用のHTTP APIを提供するサーバーモードも備えています。
大量の音声を迅速にテキスト化したい開発者や、既存システムに音声認識機能を容易に組み込みたいユーザーに最適です。
互換性・特徴
- CLI
- Go
- HTTP API
- CPUのみ
- 多言語対応
- ffmpeg対応
基本情報
| ライセンス | MIT |
| Stars | 16 |
| Forks | 2 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | low |
最新リリース: v1.0.0 (2026-03-08)