blip-image-captioning-base

概要

SalesforceのBLIP画像キャプション生成モデルのベース版で、COCOデータセットで学習された画像説明向けの事前学習モデルです。

画像を入力して自然言語の説明文を生成でき、テキスト条件を与える条件付き生成と、条件なし生成の両方に対応します。

Hugging Face TransformersとPyTorchから利用でき、CPU実行に加えてGPUの全精度・半精度推論も可能です。

画像理解やキャプション生成の研究者、Pythonで画像説明機能を組み込みたい開発者向けです。

HuggingFace: https://huggingface.co/Salesforce/blip-image-captioning-base