概要
Audio Flamingo Nextは、音声・環境音・音楽をまとめて理解できるNVIDIAの大規模音声言語モデルです。
音声Q&A、文字起こし、翻訳、話者分離付きASR、長時間音声の要約やキャプション生成に対応し、最長30分の長文音声やタイムスタンプ付き指示も扱えます。
Transformers経由で使える研究向けの指示追従モデルで、音声理解を試したい研究者や開発者に向いています。
互換性・特徴
- Python
- Transformers
- CLI
- GPU推奨
- 音声処理
- 長時間音声対応
基本情報
| ライセンス | other |
| Likes | 48 |
| Downloads | 7,796 |
| Pipeline | audio-text-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
HuggingFace: https://huggingface.co/nvidia/audio-flamingo-next-hf
