概要
Qwen2-Audio-7Bは、音声を入力として受け取り、内容理解や音声指示に基づく応答を行える大規模音声言語モデルです。
テキストなしで対話する音声チャットと、音声に対して追加のテキスト指示を与える音声解析の2モードを備えます。
Hugging Face Transformersから利用でき、Pythonコードで読み込み・推論可能です。
音声認識や音響イベント説明、音声対話機能を組み込みたい研究者・開発者向けのモデルです。
互換性・特徴
- Python
- CLI
- 音声入力対応
- Hugging Face Transformers
- GPU推奨
基本情報
| ライセンス | apache-2.0 |
| Likes | 170 |
| Downloads | 9,196 |
| Pipeline | audio-text-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
HuggingFace: https://huggingface.co/Qwen/Qwen2-Audio-7B