3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル

audio-flamingo-3-hf

★ 187 other 更新: 2026-04-13 HFで見る →

#CLI #GPU推奨 #研究用途限定

概要

Audio Flamingo 3は、音声・環境音・音楽を横断して理解し、文字起こし、音の内容把握、推論、対話まで行えるオープンな大規模音声言語モデルです。

Hugging Face Transformersで利用でき、単発入力だけでなく複数音声を含むマルチターン会話やバッチ処理にも対応します。

最大10分の長文脈音声を扱える点が特徴で、音声AIの研究者やPython環境で音声理解機能を組み込みたい開発者向けです。

互換性・特徴

Python
Transformers
CLI
GPU推奨
音声理解
研究用途限定

基本情報

ライセンス	other
Likes	187
Downloads	263,119
Pipeline	audio-text-to-text
カテゴリ	マルチモーダル
アクティビティ	mid

HuggingFace: https://huggingface.co/nvidia/audio-flamingo-3-hf

← 全リポジトリ一覧へ