262 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

blip-image-captioning-base

★ 852 bsd-3-clause 更新: 2025-02-03 GitHubで見る →

概要

SalesforceのBLIP画像キャプション生成モデルのベース版で、COCOデータセットで学習された画像説明向けの事前学習モデルです。

画像を入力して自然言語の説明文を生成でき、テキスト条件を与える条件付き生成と、条件なし生成の両方に対応します。

Hugging Face TransformersとPyTorchから利用でき、CPU実行に加えてGPUの全精度・半精度推論も可能です。

画像理解やキャプション生成の研究者、Pythonで画像説明機能を組み込みたい開発者向けです。

互換性・特徴

  • Python
  • PyTorch
  • Transformers
  • CLI
  • GPU対応
  • CPU対応

基本情報

ライセンスbsd-3-clause
Likes852
Downloads2,363,604
Pipelineimage-to-text
カテゴリマルチモーダル
アクティビティmid

HuggingFace: https://huggingface.co/Salesforce/blip-image-captioning-base