272 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

audio-flamingo-3-hf

★ 183 other 更新: 2026-04-13 HFで見る →

概要

Audio Flamingo 3は、音声・環境音・音楽を横断して理解し、文字起こし、音の内容把握、推論、対話まで行えるオープンな大規模音声言語モデルです。

Hugging Face Transformersで利用でき、単発入力だけでなく複数音声を含むマルチターン会話やバッチ処理にも対応します。

最大10分の長文脈音声を扱える点が特徴で、音声AIの研究者やPython環境で音声理解機能を組み込みたい開発者向けです。

互換性・特徴

  • Python
  • Transformers
  • CLI
  • GPU推奨
  • 音声理解
  • 研究用途限定

基本情報

ライセンスother
Likes183
Downloads188,689
Pipelineaudio-text-to-text
カテゴリマルチモーダル
アクティビティmid

HuggingFace: https://huggingface.co/nvidia/audio-flamingo-3-hf