278 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

MOSS-Audio-8B-Instruct

★ 37 apache-2.0 更新: 2026-04-14 HFで見る →

概要

MOSS-Audio-8B-Instructは、音声・環境音・音楽をまとめて理解できるオープンソースの音声理解モデルです。

音声認識、話者や感情の分析、場面推定、音楽理解、要約、時間付きQAまで1つの系で扱えます。

独自音声エンコーダーと時間表現、複数層特徴注入を採用し、複雑な実世界音声に強い点が特徴です。

研究者や開発者、音声解析やマルチモーダルAIを組み込むプロダクト開発者向けで、GradioやSGLangによる利用も想定されています。

互換性・特徴

  • Python
  • CLI
  • Gradio
  • SGLang
  • 音声理解
  • オープンソース

基本情報

ライセンスapache-2.0
Likes37
Downloads1,781
Pipelineaudio-text-to-text
カテゴリマルチモーダル
アクティビティlow

HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-Audio-8B-Instruct