1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

whisperX

★ 21.9k ⑂ 2,256 BSD-2-Clause 更新: 2026-04-04 GitHubで見る →

概要

WhisperXは、OpenAIのWhisperモデルを基盤とした、単語レベルの正確なタイムスタンプと話者分離(Diarization)機能を備えた高速自動音声認識(ASR)ツールです。

特に、バッチ処理により70倍のリアルタイム転写速度を達成し、`faster-whisper`バックエンドを利用することでGPUメモリ消費を抑えながら高性能を発揮します。

`wav2vec2`によるアラインメントと`pyannote-audio`による話者分離を統合し、オリジナルのWhisperモデルの課題であった不正確なタイムスタンプやバッチ処理の欠如を克服しています。

大量の音声データを高速かつ高精度に文字起こしし、話者情報も付与したい開発者や研究者が主な想定ユーザーです。

互換性・特徴

  • Python
  • CLI
  • GPU必須
  • 自動音声認識 (ASR)
  • 単語レベルタイムスタンプ
  • 話者分離 (Diarization)

基本情報

ライセンスBSD-2-Clause
Stars21,883
Forks2,256
カテゴリASR / 音声認識
アクティビティmid

最新のissue

最新リリース: v3.8.5 (2026-04-01)

GitHub: https://github.com/m-bain/whisperX