VibeVoice-ASR-HF

概要

VibeVoice-ASR-HFは、Microsoftの長時間音声向け音声認識モデルをTransformers互換で使えるようにしたツールです。

最大60分の音声を1回で処理し、話者分離、タイムスタンプ、文字起こし内容をまとめて構造化出力できます。

50以上の言語とコードスイッチに対応し、固有名詞や専門用語向けのホットワード指定も可能です。

議事録作成、会話分析、ポッドキャストや多人数音声の書き起こしを行いたい開発者や研究用途のユーザーに向いています。

HuggingFace: https://huggingface.co/microsoft/VibeVoice-ASR-HF