3,640 repos GH 3,525 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル

MOSS-VL-Instruct-0408

★ 97 apache-2.0 更新: 2026-04-22 HFで見る →

#CLI #GPU必須 #動画対応 #画像対応

概要

MOSS-VL-Instruct-0408は、OpenMOSS系の視覚言語モデルを教師あり微調整したマルチモーダル推論用チェックポイントです。

画像理解、OCR、文書解析、視覚推論、指示追従に対応し、特に長尺動画の理解、時間的推論、行動認識、秒単位の出来事特定に強みがあります。

Transformers経由でPythonからオフライン推論でき、動画解析や文書理解を高性能に扱いたい研究者・開発者向けです。

互換性・特徴

Python
Transformers
CLI
GPU必須
画像対応
動画対応

基本情報

ライセンス	apache-2.0
Likes	97
Downloads	331
Pipeline	video-text-to-text
カテゴリ	マルチモーダル
アクティビティ	low

HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-VL-Instruct-0408

← 全リポジトリ一覧へ