3,613 repos GH 3,498 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル

audio-flamingo-next-hf

★ 56 other 更新: 2026-05-13 HFで見る →

#CLI #GPU推奨 #Python #長時間音声対応 #音声処理

概要

Audio Flamingo Nextは、音声・環境音・音楽をまとめて理解できるNVIDIAの大規模音声言語モデルです。

音声Q&A、文字起こし、翻訳、話者分離付きASR、長時間音声の要約やキャプション生成に対応し、最長30分の長文音声やタイムスタンプ付き指示も扱えます。

Transformers経由で使える研究向けの指示追従モデルで、音声理解を試したい研究者や開発者に向いています。

互換性・特徴

Python
Transformers
CLI
GPU推奨
音声処理
長時間音声対応

基本情報

ライセンス	other
Likes	56
Downloads	7,784
Pipeline	audio-text-to-text
カテゴリ	マルチモーダル
アクティビティ	low

HuggingFace: https://huggingface.co/nvidia/audio-flamingo-next-hf

← 全リポジトリ一覧へ