272 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

MOSS-Audio-4B-Instruct

★ 51 apache-2.0 更新: 2026-04-14 HFで見る →

概要

MOSS-Audio-4B-Instructは、音声・環境音・音楽を統合的に理解し、テキストで応答するオープンソースの音声理解モデルです。

音声認識、話者や感情の分析、背景音からの状況推定、音楽理解、音声要約、タイムスタンプ付きQA、複雑な推論まで幅広く対応します。

専用音声エンコーダと時間認識機構を備え、指示に素直に従うInstruct系として設計されています。

研究者、音声AI開発者、音声解析やマルチモーダルアプリを作りたい技術者向けのモデルです。

互換性・特徴

  • Python
  • CLI
  • Gradio
  • SGLang
  • 音声理解
  • GPU推奨

基本情報

ライセンスapache-2.0
Likes51
Downloads2,951
Pipelineaudio-text-to-text
カテゴリマルチモーダル
アクティビティlow

HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-Audio-4B-Instruct