clip-vit-large-patch14

概要

CLIPのViT-L/14版を提供する研究向け画像・テキスト理解モデルです。

画像と自然言語の対応を同一空間で学習し、事前に固定ラベルで再学習しなくても、テキスト候補を与えるだけでゼロショット画像分類や画像テキスト類似度計算に使えます。

Transformers経由でPythonから利用しやすい一方、商用・本番導入は想定外で、英語以外や監視・顔認識用途には不向きです。

主な想定ユーザーは、視覚モデルの頑健性・汎化性能・バイアスを検証したいAI研究者です。

Likes	2,003
Downloads	27,356,832
Pipeline	zero-shot-image-classification
カテゴリ	マルチモーダル
アクティビティ	mid

HuggingFace: https://huggingface.co/openai/clip-vit-large-patch14