概要
MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデルです。
音声認識、話者や感情の分析、背景音からの状況推定、音楽理解、音声要約、タイムスタンプ付きQA、複雑な推論まで幅広く対応します。
専用音声エンコーダと時間認識機構を備え、指示に素直に従うInstruct系として設計されています。
研究者、音声AI開発者、音声解析やマルチモーダルアプリを作りたい技術者向けのモデルです。
互換性・特徴
- Python
- CLI
- Gradio
- SGLang
- 音声理解
- GPU推奨
基本情報
| ライセンス | apache-2.0 |
| Likes | 51 |
| Downloads | 2,951 |
| Pipeline | audio-text-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-Audio-4B-Instruct
