PaintBench

概要

PaintBenchは、生成AIモデルの画像編集能力を決定論的に評価するためのベンチマークツールです。

MSペイントのような編集タスク（領域の色変更、境界線描画、図形移動、パターン補完など）に特化しており、シードから生成される`(入力画像, 指示, 正解画像)`のトリプレットにより、ピクセル単位で正確な正解が保証されます。

これにより、人間の評価やLLMによる判断なしに、客観的で厳密な評価が可能です。

PaintBench（20タスク、1920問）とTinyGrafixBench（グラフ編集、600問）の2つのベンチマークを提供し、Python 3.12以上を必要とします。

ローカルGPUモデルやGoogle GenAI、OpenAIなどのAPI対応モデルも評価対象とできます。

主に画像生成AIの研究者や開発者が、モデルの視覚編集能力を定量的に測定・比較するために設計されています。

GitHub: https://github.com/PaintBench/PaintBench