clip-vit-base-patch32

概要

openai/clip-vit-base-patch32は、画像とテキストを同じ埋め込み空間で比較し、任意のラベル文との類似度からゼロショット画像分類を行えるCLIPモデルです。

ViT-B/32画像エンコーダとテキストエンコーダを組み合わせ、Transformersから簡単に利用できます。

主な想定ユーザーは、画像認識の頑健性・汎化性能・バイアスを研究したいAI研究者です。

READMEでは実運用向けではなく、用途ごとの十分な検証が必要で、英語中心の利用が前提である点も強調されています。

Likes	932
Downloads	21,610,888
Pipeline	zero-shot-image-classification
カテゴリ	マルチモーダル
アクティビティ	mid

HuggingFace: https://huggingface.co/openai/clip-vit-base-patch32