3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

whisper-diarization

★ 5.6k ⑂ 503 BSD-2-Clause 更新: 2026-02-23 GitHubで見る →

概要

このツールは、OpenAI Whisperの自動音声認識(ASR)機能と高度な話者分離(Speaker Diarization)技術を統合したパイプラインです。

音声データから文字起こしを行うだけでなく、「誰が何を話したか」を高精度で特定します。

ボーカル抽出による話者埋め込み精度の向上、`ctc-forced-aligner`を用いたタイムスタンプの正確なアラインメント、MarbleNetによる音声区間検出(VAD)とセグメンテーション、TitaNetによる話者埋め込み抽出、そして句読点モデルによる時間ずれ補正が主な特徴です。

会議の議事録作成、ポッドキャスト分析、複数話者の対話コンテンツのテキスト化など、話者識別が必要な音声処理を行う開発者や研究者に適しています。

互換性・特徴

  • Python
  • CLI
  • OpenAI Whisper
  • 話者分離
  • Colab対応
  • 音声認識

基本情報

ライセンスBSD-2-Clause
Stars5,568
Forks503
カテゴリASR / 音声認識
アクティビティmid

最新のissue

GitHub: https://github.com/MahmoudAshraf97/whisper-diarization