MOSS-Audio-4B-Thinking

概要

MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要約、時刻付きQA、複雑な推論まで行えるオープンソースの音声理解モデルです。

Thinking版は連鎖的な思考を使った高度な推論に強く、時間情報を扱う設計や多層特徴注入により精度を高めています。

研究者、音声AI開発者、音声解析やマルチモーダル推論を扱う実務ユーザー向けです。

HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-Audio-4B-Thinking