概要
Whisper JAXは、OpenAIのWhisperモデルをJAXで実装したもので、特にTPUでの実行時にOpenAIのPyTorch版と比較して最大70倍高速な音声認識を実現します。
Hugging Face TransformersのWhisper実装を基盤とし、CPU、GPU、TPUといった多様な環境で動作します。
データ並列処理や半精度演算、バッチ処理により、大規模な音声データを効率的かつ高速に処理できます。
主に、大量の音声データを扱う研究者や開発者、特に高速な音声認識ソリューションを求めるユーザーを想定しています。
互換性・特徴
- JAX
- Python
- GPU対応
- TPU対応
- CLI
- Hugging Face
基本情報
| ライセンス | Apache-2.0 |
| Stars | 4,684 |
| Forks | 414 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | mid |
最新のissue
- 比較: FunASR SenseVoice — 非自己回帰型、JAXトリックなしでさらに高速に (更新: 2026-06-12 / Comparison: FunASR SenseVoice — non-autoregressive, even faster without JAX tricks)
- Whisper-JAXにおける信頼度スコアと平均対数確率 (更新: 2025-09-10 / Confidence score and average log probability on Whisper-JAX)
- 言語指定後もヒンディー語の転写のみが行われる (更新: 2025-07-31 / Only giving Hindi Transcription, even after specifying language)
