MOSS-Audio-8B-Instruct

概要

MOSS-Audio-8B-Instructは、音声・環境音・音楽をまとめて理解できるオープンソースの音声理解モデルです。

音声認識、話者や感情の分析、場面推定、音楽理解、要約、時間付きQAまで1つの系で扱えます。

独自音声エンコーダーと時間表現、複数層特徴注入を採用し、複雑な実世界音声に強い点が特徴です。

研究者や開発者、音声解析やマルチモーダルAIを組み込むプロダクト開発者向けで、GradioやSGLangによる利用も想定されています。

HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-Audio-8B-Instruct