zero-shot-video-classifier

概要

このツールは、ビジョン言語基盤モデル（CLIP、SigLIP 2、X-CLIP）を用いたゼロショット動画分類器です。

タスク固有のトレーニングを必要とせず、動画をアップロードし、自然言語のラベルを入力するだけで、動画コンテンツとの類似性に基づいてラベルをランク付けします。

特徴として、複数のモデルをサポートし、ファインチューニングなしで動画分類が可能です。

研究者や開発者、大量のトレーニングデータなしで動画の内容を分類したいユーザーに適しています。

GitHub: https://github.com/RohitMugalya/zero-shot-video-classifier