SynCLIP

概要

SynCLIPは、セマンティクス的に同等な表現でも空間的注意が異なるという、オープンボキャブラリー高密度知覚（OVDP）における課題を解決する言語-画像事前学習フレームワークです。

同義語に起因するグラウンディングの不整合性を解消し、より堅牢な知覚を実現します。

SSAモジュールで注意マップの一貫性を高め、SARモジュールで空間的関連領域を精密化します。

また、同義語で強化された視覚コーパスSEViCも活用。

CVPR 2026で採択されたこの手法は、CLIPベースのOVDPにおいて最先端の性能を発揮します。

コンピュータビジョン、特にOVDPや言語-画像事前学習の研究者・開発者向けです。

GitHub: https://github.com/Justlovesmile/SynCLIP