概要
WhisperXは、OpenAIのWhisperモデルを基盤とした、単語レベルの正確なタイムスタンプと話者分離(Diarization)機能を備えた高速自動音声認識(ASR)ツールです。
特に、バッチ処理により70倍のリアルタイム転写速度を達成し、`faster-whisper`バックエンドを利用することでGPUメモリ消費を抑えながら高性能を発揮します。
`wav2vec2`によるアラインメントと`pyannote-audio`による話者分離を統合し、オリジナルのWhisperモデルの課題であった不正確なタイムスタンプやバッチ処理の欠如を克服しています。
大量の音声データを高速かつ高精度に文字起こしし、話者情報も付与したい開発者や研究者が主な想定ユーザーです。
互換性・特徴
- Python
- CLI
- GPU必須
- 自動音声認識 (ASR)
- 単語レベルタイムスタンプ
- 話者分離 (Diarization)
基本情報
| ライセンス | BSD-2-Clause |
| Stars | 21,883 |
| Forks | 2,256 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | mid |
最新のissue
- faster-whisperからの確率またはスコア(アライメントモデルからではない) (更新: 2026-05-11 / Probability or score coming from faster-whisper and not alignment model)
- オーディオリストに対する真のバッチ推論はありますか? (更新: 2026-05-08 / Is there a real batch inference for the audio list?)
- whisperxはいつtorch==2.9.1をサポートできますか? (更新: 2026-05-07 / When whisperx can suport torch==2.9.1)
- Possible to completely disable VAD? (更新: 2026-05-04)
最新リリース: v3.8.5 (2026-04-01)
