cppo | AIAI Hub

概要

CPPO（Contrastive Perception Policy Optimization）は、視覚言語モデル（VLM）エージェントのファインチューニングを目的とした強化学習フレームワークです。

外部からの監視なしで、対比的知覚トレーニングを通じてVLMの知覚能力を向上させ、複雑なマルチモーダル推論タスクで一貫した性能向上を実現します。

エントロピーベースの知覚トークン検出と対比的知覚損失（CPL）を強化学習と統合し、研究準備済みの実装、前処理、トレーニング、評価パイプラインを提供。

Hugging Faceで事前学習済みモデルも公開されており、VLMの性能向上や強化学習を用いたエージェント開発に取り組む研究者や開発者向けです。

GitHub: https://github.com/vbdi/cppo