概要
MOSS-Video-Preview-Baseは、動画と言語をネイティブに統合して扱うクロスアテンション型の事前学習ベースモデルです。
画像・動画の両方で推論でき、Flash Attention 2やCUDA/NPU環境を活かした高効率処理を前提にしています。
教師ありチューニング前の基盤チェックポイントのため、そのまま完成品として使うより、動画理解・表現学習・低遅延配信応答の研究や、独自のSFT・実時間ストリーミング対応モデルの開発を行いたい研究者・開発者向けです。
互換性・特徴
- Python
- Transformers
- PyTorch
- GPU推奨
- 動画理解
- 画像対応
基本情報
| ライセンス | apache-2.0 |
| Likes | 12 |
| Downloads | 100 |
| Pipeline | video-text-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
HuggingFace: https://huggingface.co/OpenMOSS-Team/moss-video-preview-base
