262 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

VibeVoice-ASR-HF

★ 125 mit 更新: 2026-03-09 GitHubで見る →

概要

VibeVoice-ASR-HFは、Microsoftの長時間音声向け音声認識モデルをTransformers互換で使えるようにしたツールです。

最大60分の音声を1回で処理し、話者分離、タイムスタンプ、文字起こし内容をまとめて構造化出力できます。

50以上の言語とコードスイッチに対応し、固有名詞や専門用語向けのホットワード指定も可能です。

議事録作成、会話分析、ポッドキャストや多人数音声の書き起こしを行いたい開発者や研究用途のユーザーに向いています。

互換性・特徴

  • Transformers対応
  • Python
  • ASR
  • 話者分離
  • 多言語対応
  • CLI

基本情報

ライセンスmit
Likes125
Downloads312,329
Pipelineaudio-text-to-text
カテゴリASR / 音声認識
アクティビティmid

HuggingFace: https://huggingface.co/microsoft/VibeVoice-ASR-HF