概要
TIPSv2 B/14は、画像とテキストを同じ埋め込み空間で扱えるGoogle系の視覚言語モデルです。
画像全体の特徴量だけでなく、パッチ単位の空間的特徴も取得できるため、ゼロショット画像分類、特徴抽出、空間特徴の可視化、発展的にはセグメンテーション系の用途にも向きます。
Transformersから読み込め、PyTorchベースで利用できるため、研究者や機械学習エンジニアが画像理解モデルを試作・評価する用途に適しています。
互換性・特徴
- Python
- CLI
- Transformers
- PyTorch
- GPU推論対応
- ゼロショット分類
基本情報
| ライセンス | apache-2.0 |
| Likes | 95 |
| Downloads | 12,085 |
| Pipeline | zero-shot-image-classification |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
HuggingFace: https://huggingface.co/google/tipsv2-b14