272 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

MOSS-Audio-4B-Thinking

★ 28 apache-2.0 更新: 2026-04-14 HFで見る →

概要

MOSS-Audio-4B-Thinkingは、音声・環境音・音楽をまとめて理解し、文字起こし、話者や感情の分析、音の状況把握、要約、時刻付きQA、複雑な推論まで行えるオープンソースの音声理解モデルです。

Thinking版は連鎖的な思考を使った高度な推論に強く、時間情報を扱う設計や多層特徴注入により精度を高めています。

研究者、音声AI開発者、音声解析やマルチモーダル推論を扱う実務ユーザー向けです。

互換性・特徴

  • Python
  • CLI
  • Gradio
  • 音声理解
  • マルチモーダル
  • GPU推奨

基本情報

ライセンスapache-2.0
Likes28
Downloads891
Pipelineaudio-text-to-text
カテゴリマルチモーダル
アクティビティlow

HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-Audio-4B-Thinking