マルチモーダル HF clip-vit-large-patch14CLIPのViT-L/14版を提供する研究向け画像・テキスト理解モデルです。画像と自然言語の対応を同一空間で学習し、事前… #Vision Transformer #ゼロショット分類 #英語前提 ❤ 2.0k ↓ 27.4M 2023-09-15