概要
MOSS-Audio-8B-Thinkingは、音声・環境音・音楽を横断的に理解できるオープンソースの音声理解モデルです。
文字起こしだけでなく、話者や感情の分析、音響イベント検出、音楽理解、要約、時間付きQA、複雑な推論まで1つのモデルで扱えます。
Thinking版は連鎖的な思考を伴う推論を強化しており、音声研究者や開発者、音声解析を組み込むAIアプリ制作者に向いています。
GradioやSGLangでの利用も想定されています。
互換性・特徴
- Python
- CLI
- Web UI
- GPU推奨
- Hugging Face対応
- 音声理解モデル
基本情報
| ライセンス | apache-2.0 |
| Likes | 61 |
| Downloads | 42,456 |
| Pipeline | audio-text-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-Audio-8B-Thinking
