概要
Audio Flamingo 3は、音声・環境音・音楽を横断して理解し、文字起こし、音の内容把握、推論、対話まで行えるオープンな大規模音声言語モデルです。
Hugging Face Transformersで利用でき、単発入力だけでなく複数音声を含むマルチターン会話やバッチ処理にも対応します。
最大10分の長文脈音声を扱える点が特徴で、音声AIの研究者やPython環境で音声理解機能を組み込みたい開発者向けです。
互換性・特徴
- Python
- Transformers
- CLI
- GPU推奨
- 音声理解
- 研究用途限定
基本情報
| ライセンス | other |
| Likes | 183 |
| Downloads | 188,689 |
| Pipeline | audio-text-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
HuggingFace: https://huggingface.co/nvidia/audio-flamingo-3-hf
