262 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

MOSS-VL-Instruct-0408

★ 93 apache-2.0 更新: 2026-04-22 GitHubで見る →

概要

MOSS-VL-Instruct-0408は、OpenMOSS系の視覚言語モデルを教師あり微調整したマルチモーダル推論用チェックポイントです。

画像理解、OCR、文書解析、視覚推論、指示追従に対応し、特に長尺動画の理解、時間的推論、行動認識、秒単位の出来事特定に強みがあります。

Transformers経由でPythonからオフライン推論でき、動画解析や文書理解を高性能に扱いたい研究者・開発者向けです。

互換性・特徴

  • Python
  • Transformers
  • CLI
  • GPU必須
  • 画像対応
  • 動画対応

基本情報

ライセンスapache-2.0
Likes93
Downloads3,276
Pipelinevideo-text-to-text
カテゴリマルチモーダル
アクティビティlow

HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-VL-Instruct-0408