概要
CLIPのViT-L/14版を提供する研究向け画像・テキスト理解モデルです。
画像と自然言語の対応を同一空間で学習し、事前に固定ラベルで再学習しなくても、テキスト候補を与えるだけでゼロショット画像分類や画像テキスト類似度計算に使えます。
Transformers経由でPythonから利用しやすい一方、商用・本番導入は想定外で、英語以外や監視・顔認識用途には不向きです。
主な想定ユーザーは、視覚モデルの頑健性・汎化性能・バイアスを検証したいAI研究者です。
互換性・特徴
- Python
- Transformers対応
- Vision Transformer
- ゼロショット分類
- 英語前提
- 研究用途
基本情報
| Likes | 2,003 |
| Downloads | 27,356,832 |
| Pipeline | zero-shot-image-classification |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
HuggingFace: https://huggingface.co/openai/clip-vit-large-patch14