MOSS-Audio-4B-Instruct

概要

MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデルです。

音声認識、話者や感情の分析、背景音からの状況推定、音楽理解、音声要約、タイムスタンプ付きQA、複雑な推論まで幅広く対応します。

専用音声エンコーダと時間認識機構を備え、指示に素直に従うInstruct系として設計されています。

研究者、音声AI開発者、音声解析やマルチモーダルアプリを作りたい技術者向けのモデルです。

HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-Audio-4B-Instruct