272 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

moss-video-preview-base

★ 12 apache-2.0 更新: 2026-03-22 HFで見る →

概要

MOSS-Video-Preview-Baseは、動画と言語をネイティブに統合して扱うクロスアテンション型の事前学習ベースモデルです。

画像・動画の両方で推論でき、Flash Attention 2やCUDA/NPU環境を活かした高効率処理を前提にしています。

教師ありチューニング前の基盤チェックポイントのため、そのまま完成品として使うより、動画理解・表現学習・低遅延配信応答の研究や、独自のSFT・実時間ストリーミング対応モデルの開発を行いたい研究者・開発者向けです。

互換性・特徴

  • Python
  • Transformers
  • PyTorch
  • GPU推奨
  • 動画理解
  • 画像対応

基本情報

ライセンスapache-2.0
Likes12
Downloads100
Pipelinevideo-text-to-text
カテゴリマルチモーダル
アクティビティlow

HuggingFace: https://huggingface.co/OpenMOSS-Team/moss-video-preview-base