概要
このリポジトリは、Multimodal LLM (MLLM) が芸術作品をどのように記述するかを解明する研究の公式コードです。
Token Activation Maps (TAM) という独自の手法を用いて、MLLMが生成する各単語が画像のどの部分に基づいているかを視覚化します。
これにより、モデルがオブジェクト、図像的テーマ、スタイル、メタデータといった要素を認識する際の視覚的根拠を詳細に分析できます。
主にMLLMの解釈可能性や芸術分野への応用に関心のある研究者を対象としており、`TAMExplainer`クラスを通じてTAMアルゴリズムを直接利用することも可能です。
高性能なNVIDIA GPUとLinux環境での動作が前提となります。
互換性・特徴
- Python
- CLI
- GPU必須
- Linux
- 研究ツール
- 画像分析
基本情報
| Stars | 3 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
