概要
MOSS-VL-Base-0408は、OpenMOSS系の画像・動画理解向けマルチモーダル基盤モデルです。
4段階の事前学習のみで構築されたベースチェックポイントで、元解像度・元アスペクト比のまま画像や動画フレームを扱え、画像と動画を混在させた入力にも対応します。
主な想定ユーザーは、独自データで教師あり微調整やアラインメント、ドメイン適応を行いたい研究者・開発者で、Transformers経由のPython推論を前提とした高性能なオフライン利用向けモデルです。
互換性・特徴
- Python
- Transformers
- CLI
- GPU必須
- 動画対応
- 画像対応
基本情報
| ライセンス | apache-2.0 |
| Likes | 59 |
| Downloads | 317 |
| Pipeline | video-text-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-VL-Base-0408
