diarize

概要

diarizeは、音声ファイルから「誰がいつ話したか」を自動的に識別するPython製のスピーカーダイアリゼーションツールです。

GPUやAPIキー、アカウント登録が不要で、CPUのみで動作するのが最大の特徴です。

Apache 2.0ライセンスで提供され、VoxConverseデータセットにおいて約4.8%の低いDiarization Error Rate（DER）を達成し、リアルタイムの約8倍という高速処理能力を誇ります。

話者数の自動検出機能も備えており、開発者や研究者が手軽に、かつ高性能な音声分析を行いたい場合に最適です。

Python 3.9以降に対応し、WAV、MP3、FLAC、OGGなど多様な音声フォーマットをサポートしています。

最新リリース: v0.1.2 (2026-05-06)

GitHub: https://github.com/FoxNoseTech/diarize