whisperX

概要

WhisperXは、OpenAIのWhisperモデルを基盤とした、単語レベルの正確なタイムスタンプと話者分離（Diarization）機能を備えた高速自動音声認識（ASR）ツールです。

特に、バッチ処理により70倍のリアルタイム転写速度を達成し、`faster-whisper`バックエンドを利用することでGPUメモリ消費を抑えながら高性能を発揮します。

`wav2vec2`によるアラインメントと`pyannote-audio`による話者分離を統合し、オリジナルのWhisperモデルの課題であった不正確なタイムスタンプやバッチ処理の欠如を克服しています。

大量の音声データを高速かつ高精度に文字起こしし、話者情報も付与したい開発者や研究者が主な想定ユーザーです。