tipsv2-b14

概要

TIPSv2 B/14は、画像とテキストを同じ埋め込み空間で扱えるGoogle系の視覚言語モデルです。

画像全体の特徴量だけでなく、パッチ単位の空間的特徴も取得できるため、ゼロショット画像分類、特徴抽出、空間特徴の可視化、発展的にはセグメンテーション系の用途にも向きます。

Transformersから読み込め、PyTorchベースで利用できるため、研究者や機械学習エンジニアが画像理解モデルを試作・評価する用途に適しています。

ライセンス	apache-2.0
Likes	112
Downloads	12,081
Pipeline	zero-shot-image-classification
カテゴリ	マルチモーダル
アクティビティ	mid

HuggingFace: https://huggingface.co/google/tipsv2-b14