vit-gpt2-image-captioning

概要

`nlpconnect/vit-gpt2-image-captioning` は、画像を入力すると英語の説明文を自動生成できる画像キャプション生成モデルです。

ViT を画像エンコーダ、GPT-2 をテキストデコーダとして組み合わせ、Hugging Face Transformers からそのまま読み込めます。

Pythonコードで個別実装する方法に加え、`pipeline("image-to-text")` による簡単な利用例もあり、画像理解の試作、AIアプリ開発、研究・検証を進めたい開発者や機械学習利用者に向いています。

HuggingFace: https://huggingface.co/nlpconnect/vit-gpt2-image-captioning