MOSS-VL-Base-0408

概要

MOSS-VL-Base-0408は、OpenMOSS系の画像・動画理解向けマルチモーダル基盤モデルです。

4段階の事前学習のみで構築されたベースチェックポイントで、元解像度・元アスペクト比のまま画像や動画フレームを扱え、画像と動画を混在させた入力にも対応します。

主な想定ユーザーは、独自データで教師あり微調整やアラインメント、ドメイン適応を行いたい研究者・開発者で、Transformers経由のPython推論を前提とした高性能なオフライン利用向けモデルです。

HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-VL-Base-0408