ETCHR

概要

ETCHR (Editing To Clarify and Harness Reasoning)は、質問条件に基づいて推論を意識した画像エディタです。

マルチモーダル大規模言語モデル（MLLM）の視覚的推論アシスタントとして機能し、MLLMから独立したモジュールとして動作します。

これにより、きめ細かい画像理解や複雑な空間変換が必要な場面で、テキストのみの推論が困難なボトルネックを解消します。

Qwen3-VL-8BやGemini-3.1-Flash-Liteといった多様なMLLMに対し、個別のファインチューニングなしで「プラグアンドプレイ」で利用可能です。

Edit-Verify-Reasonという推論パイプラインを通じて、編集の信頼性を確保し、高い精度での画像理解を支援します。

主にMLLMの研究者や開発者が、視覚的推論能力を向上させるために利用することが想定されます。

GitHub: https://github.com/InternLM/ETCHR