概要
MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要約、時刻付きQA、複雑な推論まで行えるオープンソースの音声理解モデルです。
Thinking版は連鎖的な思考を使った高度な推論に強く、時間情報を扱う設計や多層特徴注入により精度を高めています。
研究者、音声AI開発者、音声解析やマルチモーダル推論を扱う実務ユーザー向けです。
互換性・特徴
- Python
- CLI
- Gradio
- 音声理解
- マルチモーダル
- GPU推奨
基本情報
| ライセンス | apache-2.0 |
| Likes | 28 |
| Downloads | 891 |
| Pipeline | audio-text-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-Audio-4B-Thinking
