概要
このツールは、ビジョン言語基盤モデル(CLIP、SigLIP 2、X-CLIP)を用いたゼロショット動画分類器です。
タスク固有のトレーニングを必要とせず、動画をアップロードし、自然言語のラベルを入力するだけで、動画コンテンツとの類似性に基づいてラベルをランク付けします。
特徴として、複数のモデルをサポートし、ファインチューニングなしで動画分類が可能です。
研究者や開発者、大量のトレーニングデータなしで動画の内容を分類したいユーザーに適しています。
互換性・特徴
- PyTorch
- HuggingFace Transformers
- Streamlit
- Docker
- Python
- ゼロショット
基本情報
| Stars | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
GitHub: https://github.com/RohitMugalya/zero-shot-video-classifier