279 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

MOSS-VL-Base-0408

★ 59 apache-2.0 更新: 2026-04-23 HFで見る →

概要

MOSS-VL-Base-0408は、OpenMOSS系の画像・動画理解向けマルチモーダル基盤モデルです。

4段階の事前学習のみで構築されたベースチェックポイントで、元解像度・元アスペクト比のまま画像や動画フレームを扱え、画像と動画を混在させた入力にも対応します。

主な想定ユーザーは、独自データで教師あり微調整やアラインメント、ドメイン適応を行いたい研究者・開発者で、Transformers経由のPython推論を前提とした高性能なオフライン利用向けモデルです。

互換性・特徴

  • Python
  • Transformers
  • CLI
  • GPU必須
  • 動画対応
  • 画像対応

基本情報

ライセンスapache-2.0
Likes59
Downloads317
Pipelinevideo-text-to-text
カテゴリマルチモーダル
アクティビティlow

HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-VL-Base-0408