概要
SigLIP (shape-optimized model) は、WebLiデータセットで384×384の解像度で事前学習された多モーダルモデルです。
従来のCLIPモデルと比較して、改良されたシグモイド損失関数を使用しており、バッチサイズのスケーリングに優れ、小規模なバッチサイズでも高い性能を発揮します。
このモデルはSoViT-400mアーキテクチャを採用しており、ゼロショット画像分類や画像-テキスト検索といったタスクに活用できます。
想定されるユーザーは、画像とテキストの関連性に基づいた高度なAIタスクに取り組む研究者や開発者です。
互換性・特徴
- Python
- Transformer
- ゼロショット学習
- 画像認識
- Hugging Face
- AI/MLモデル
基本情報
| ライセンス | apache-2.0 |
| Likes | 678 |
| Downloads | 1,605,718 |
| Pipeline | zero-shot-image-classification |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
HuggingFace: https://huggingface.co/google/siglip-so400m-patch14-384
