siglip-so400m-patch14-384

概要

SigLIP So400m Patch14 384は、Googleの画像と言語を結び付けるマルチモーダルモデルで、ゼロショット画像分類や画像テキスト検索に使えます。

CLIP系モデルを改良したsigmoid lossを採用し、画像とテキストのペア学習に最適化されている点が特徴です。

384×384入力のshape-optimized SoViT-400m構成で、TransformersからPythonコードやpipeline APIで利用できます。

画像理解や検索機能を自作アプリに組み込みたい研究者・開発者向けです。

ライセンス	apache-2.0
Likes	674
Downloads	2,129,671
Pipeline	zero-shot-image-classification
カテゴリ	マルチモーダル
アクティビティ	mid

HuggingFace: https://huggingface.co/google/siglip-so400m-patch14-384