概要
openai/clip-vit-base-patch32は、画像とテキストを同じ埋め込み空間で比較し、任意のラベル文との類似度からゼロショット画像分類を行えるCLIPモデルです。
ViT-B/32画像エンコーダとテキストエンコーダを組み合わせ、Transformersから簡単に利用できます。
主な想定ユーザーは、画像認識の頑健性・汎化性能・バイアスを研究したいAI研究者です。
READMEでは実運用向けではなく、用途ごとの十分な検証が必要で、英語中心の利用が前提である点も強調されています。
互換性・特徴
- Python
- Transformers
- Vision
- Zero-shot classification
- GPU推奨
基本情報
| Likes | 932 |
| Downloads | 21,610,888 |
| Pipeline | zero-shot-image-classification |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
HuggingFace: https://huggingface.co/openai/clip-vit-base-patch32