概要
voicetagは、Pythonで書かれた話者分離および話者識別ライブラリです。
pyannote.audioとresemblyzerを組み合わせて「誰が、いつ話したか」を自動的に特定します。
数個のオーディオサンプルで話者を登録すれば、会議、ポッドキャスト、インタビューなどのあらゆる録音で彼らを識別可能です。
言語非依存性、重複検出、高速並列処理、CLIツール、プロファイル保存機能、Whisperなどを用いた転写機能が特徴で、音声データから効率的に話者情報を抽出したい開発者や研究者に適しています。
互換性・特徴
- Python
- CLI
- HuggingFace
- 音声処理
- AI/機械学習
- 言語非依存
基本情報
| ライセンス | MIT |
| Stars | 51 |
| Forks | 5 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | low |
最新のissue
- リアルタイムストリーミングデータにおける識別処理のサポート機能の追加 (更新: 2026-05-03 / Streaming identify support)
