概要
SalesforceのBLIP画像キャプション生成モデルのベース版で、COCOデータセットで学習された画像説明向けの事前学習モデルです。
画像を入力して自然言語の説明文を生成でき、テキスト条件を与える条件付き生成と、条件なし生成の両方に対応します。
Hugging Face TransformersとPyTorchから利用でき、CPU実行に加えてGPUの全精度・半精度推論も可能です。
画像理解やキャプション生成の研究者、Pythonで画像説明機能を組み込みたい開発者向けです。
互換性・特徴
- Python
- PyTorch
- Transformers
- CLI
- GPU対応
- CPU対応
基本情報
| ライセンス | bsd-3-clause |
| Likes | 852 |
| Downloads | 2,363,604 |
| Pipeline | image-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
HuggingFace: https://huggingface.co/Salesforce/blip-image-captioning-base
