概要
MOSS-VL-Instruct-0408は、OpenMOSS系の視覚言語モデルを教師あり微調整したマルチモーダル推論用チェックポイントです。
画像理解、OCR、文書解析、視覚推論、指示追従に対応し、特に長尺動画の理解、時間的推論、行動認識、秒単位の出来事特定に強みがあります。
Transformers経由でPythonからオフライン推論でき、動画解析や文書理解を高性能に扱いたい研究者・開発者向けです。
互換性・特徴
- Python
- Transformers
- CLI
- GPU必須
- 画像対応
- 動画対応
基本情報
| ライセンス | apache-2.0 |
| Likes | 93 |
| Downloads | 3,276 |
| Pipeline | video-text-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
HuggingFace: https://huggingface.co/OpenMOSS-Team/MOSS-VL-Instruct-0408
