概要
OpenAIが開発したCLIPモデルは、画像とテキストの関連性を学習し、未知の画像分類タスクに対してゼロショットで高い汎化性能を発揮する能力を研究するために設計されたモデルです。
ViT-L/14 Transformerを画像エンコーダに、マスク付き自己アテンションTransformerをテキストエンコーダに採用し、対比学習により画像とテキストの類似度を最大化します。
主なターゲットユーザーは、コンピュータービジョンのロバストネスや汎化能力、バイアスについて深く探求したいAI研究者です。
本モデルは研究目的での利用を意図しており、商用・非商用を問わず、現時点でのデプロイは推奨されていません。
また、英語以外の言語での利用も対象外です。
transformersライブラリを通じて簡単に利用できます。
互換性・特徴
- Python
- Vision
- ゼロショット学習
- 画像分類
- AI研究向け
基本情報
| Likes | 2,040 |
| Downloads | 11,807,851 |
| Pipeline | zero-shot-image-classification |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
HuggingFace: https://huggingface.co/openai/clip-vit-large-patch14
