269 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

clip-vit-base-patch32

★ 932 更新: 2024-02-29 HFで見る →

概要

openai/clip-vit-base-patch32は、画像とテキストを同じ埋め込み空間で比較し、任意のラベル文との類似度からゼロショット画像分類を行えるCLIPモデルです。

ViT-B/32画像エンコーダとテキストエンコーダを組み合わせ、Transformersから簡単に利用できます。

主な想定ユーザーは、画像認識の頑健性・汎化性能・バイアスを研究したいAI研究者です。

READMEでは実運用向けではなく、用途ごとの十分な検証が必要で、英語中心の利用が前提である点も強調されています。

互換性・特徴

  • Python
  • Transformers
  • Vision
  • Zero-shot classification
  • GPU推奨

基本情報

Likes932
Downloads21,610,888
Pipelinezero-shot-image-classification
カテゴリマルチモーダル
アクティビティmid

HuggingFace: https://huggingface.co/openai/clip-vit-base-patch32