MOSS-Audio-8B-Thinking

概要

MOSS-Audio-8B-Thinkingは、音声・環境音・音楽を横断的に理解できるオープンソースの音声理解モデルです。

文字起こしだけでなく、話者や感情の分析、音響イベント検出、音楽理解、要約、時間付きQA、複雑な推論まで1つのモデルで扱えます。

Thinking版は連鎖的な思考を伴う推論を強化しており、音声研究者や開発者、音声解析を組み込むAIアプリ制作者に向いています。

GradioやSGLangでの利用も想定されています。

HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-Audio-8B-Thinking