3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

ASR / 音声認識

whisper-diarization

★ 5.6k ⑂ 503 BSD-2-Clause 更新: 2026-02-23 GitHubで見る →

#CLI #Colab対応 #OpenAI Whisper #Python #話者分離 #音声認識

概要

このツールは、OpenAI Whisperの自動音声認識（ASR）機能と高度な話者分離（Speaker Diarization）技術を統合したパイプラインです。

音声データから文字起こしを行うだけでなく、「誰が何を話したか」を高精度で特定します。

ボーカル抽出による話者埋め込み精度の向上、`ctc-forced-aligner`を用いたタイムスタンプの正確なアラインメント、MarbleNetによる音声区間検出（VAD）とセグメンテーション、TitaNetによる話者埋め込み抽出、そして句読点モデルによる時間ずれ補正が主な特徴です。

会議の議事録作成、ポッドキャスト分析、複数話者の対話コンテンツのテキスト化など、話者識別が必要な音声処理を行う開発者や研究者に適しています。

互換性・特徴

Python
CLI
OpenAI Whisper
話者分離
Colab対応
音声認識

基本情報

ライセンス	BSD-2-Clause
Stars	5,568
Forks	503
カテゴリ	ASR / 音声認識
アクティビティ	mid

最新のissue

ヘブライ語書き起こしのforced alignment中に`AssertionError`が発生 (`ctc_forced_aligner`クラッシュ) (更新: 2026-06-02 / `AssertionError: a != <star>` during forced alignment on Hebrew transcription (`ctc_forced_aligner` crash))
機能要望: より高速なASRオプションとしてSenseVoice/Paraformerを追加 (更新: 2026-05-31 / Feature Request: Add SenseVoice/Paraformer as faster ASR option)
サポートされていないGPUを自動検出してfloat32にフォールバック (更新: 2026-05-10 / automatically detect unsupported gpu and fallback to float32)

GitHub: https://github.com/MahmoudAshraf97/whisper-diarization

← 全リポジトリ一覧へ