3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

ASR / 音声認識

voicetag

★ 51 ⑂ 5 MIT 更新: 2026-03-16 GitHubで見る →

#AI/機械学習 #CLI #HuggingFace #Python #言語非依存 #音声処理

概要

voicetagは、Pythonで書かれた話者分離および話者識別ライブラリです。

pyannote.audioとresemblyzerを組み合わせて「誰が、いつ話したか」を自動的に特定します。

数個のオーディオサンプルで話者を登録すれば、会議、ポッドキャスト、インタビューなどのあらゆる録音で彼らを識別可能です。

言語非依存性、重複検出、高速並列処理、CLIツール、プロファイル保存機能、Whisperなどを用いた転写機能が特徴で、音声データから効率的に話者情報を抽出したい開発者や研究者に適しています。

互換性・特徴

Python
CLI
HuggingFace
音声処理
AI/機械学習
言語非依存

基本情報

ライセンス	MIT
Stars	51
Forks	5
カテゴリ	ASR / 音声認識
アクティビティ	low

最新のissue

リアルタイムストリーミングデータにおける識別処理のサポート機能の追加 (更新: 2026-05-03 / Streaming identify support)

GitHub: https://github.com/Gr122lyBr/voicetag

← 全リポジトリ一覧へ