概要
Music Flamingo Thinkは、音楽や楽曲音声を入力として詳細な説明や質疑応答を行えるNVIDIAの音声言語モデルです。
ジャンル、テンポ、キー、コード、楽器構成、音色、歌詞、文化的背景まで踏み込んだ音楽理解と推論に強く、Chain-of-Thoughtベースの思考出力にも対応します。
Transformers経由で音声+テキスト、音声のみ、テキストのみ、複数ターン対話で使え、音楽理解研究者や音声AI開発者向けの非商用研究用モデルです。
互換性・特徴
- Python
- Transformers
- CLI
- GPU必須
- 音声入力対応
- 非商用研究限定
基本情報
| ライセンス | other |
| Likes | 41 |
| Downloads | 2,076 |
| Pipeline | audio-text-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
HuggingFace: https://huggingface.co/nvidia/music-flamingo-think-2601-hf
