概要
このツールは、OpenAI Whisperの自動音声認識(ASR)機能と高度な話者分離(Speaker Diarization)技術を統合したパイプラインです。
音声データから文字起こしを行うだけでなく、「誰が何を話したか」を高精度で特定します。
ボーカル抽出による話者埋め込み精度の向上、`ctc-forced-aligner`を用いたタイムスタンプの正確なアラインメント、MarbleNetによる音声区間検出(VAD)とセグメンテーション、TitaNetによる話者埋め込み抽出、そして句読点モデルによる時間ずれ補正が主な特徴です。
会議の議事録作成、ポッドキャスト分析、複数話者の対話コンテンツのテキスト化など、話者識別が必要な音声処理を行う開発者や研究者に適しています。
互換性・特徴
- Python
- CLI
- OpenAI Whisper
- 話者分離
- Colab対応
- 音声認識
基本情報
| ライセンス | BSD-2-Clause |
| Stars | 5,568 |
| Forks | 503 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | mid |
最新のissue
- ヘブライ語書き起こしのforced alignment中に`AssertionError`が発生 (`ctc_forced_aligner`クラッシュ) (更新: 2026-06-02 / `AssertionError: a != <star>` during forced alignment on Hebrew transcription (`ctc_forced_aligner` crash))
- 機能要望: より高速なASRオプションとしてSenseVoice/Paraformerを追加 (更新: 2026-05-31 / Feature Request: Add SenseVoice/Paraformer as faster ASR option)
- サポートされていないGPUを自動検出してfloat32にフォールバック (更新: 2026-05-10 / automatically detect unsupported gpu and fallback to float32)
GitHub: https://github.com/MahmoudAshraf97/whisper-diarization
