概要
MOSS-Audio-8B-Instructは、音声・環境音・音楽をまとめて理解できるオープンソースの音声理解モデルです。
音声認識、話者や感情の分析、場面推定、音楽理解、要約、時間付きQAまで1つの系で扱えます。
独自音声エンコーダーと時間表現、複数層特徴注入を採用し、複雑な実世界音声に強い点が特徴です。
研究者や開発者、音声解析やマルチモーダルAIを組み込むプロダクト開発者向けで、GradioやSGLangによる利用も想定されています。
互換性・特徴
- Python
- CLI
- Gradio
- SGLang
- 音声理解
- オープンソース
基本情報
| ライセンス | apache-2.0 |
| Likes | 37 |
| Downloads | 1,781 |
| Pipeline | audio-text-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-Audio-8B-Instruct
