262 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

MOSS-Audio-8B-Thinking

★ 61 apache-2.0 更新: 2026-04-14 GitHubで見る →

概要

MOSS-Audio-8B-Thinkingは、音声・環境音・音楽を横断的に理解できるオープンソースの音声理解モデルです。

文字起こしだけでなく、話者や感情の分析、音響イベント検出、音楽理解、要約、時間付きQA、複雑な推論まで1つのモデルで扱えます。

Thinking版は連鎖的な思考を伴う推論を強化しており、音声研究者や開発者、音声解析を組み込むAIアプリ制作者に向いています。

GradioやSGLangでの利用も想定されています。

互換性・特徴

  • Python
  • CLI
  • Web UI
  • GPU推奨
  • Hugging Face対応
  • 音声理解モデル

基本情報

ライセンスapache-2.0
Likes61
Downloads42,456
Pipelineaudio-text-to-text
カテゴリマルチモーダル
アクティビティlow

HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-Audio-8B-Thinking