概要
OpenSearch-VLは、最先端のマルチモーダル深層検索エージェントを訓練するためのオープンソースのレシピです。
単一のフォワードパスで動作する通常のVLMとは異なり、このエージェントは画像を検査し、関心領域のクロップや強調、Webおよび画像検索、ページの閲覧を経て、収集した証拠に基づいて回答を生成するクローズドループで機能します。
高品質なデータキュレーション、多様な視覚・検索ツール(クロップ、Web検索、Pythonインタープリターなど)、致命的なエラーに対応する強化学習(GRPOアルゴリズム)を特徴とし、トレーニングデータ、合成パイプライン、トレーニングレシピが公開されています。
マルチモーダル検索エージェントの性能向上を目指す研究者や開発者が主な対象です。
互換性・特徴
- Python
- CLI
- 強化学習
- マルチモーダル
- 深層学習
- 画像処理
基本情報
| ライセンス | Apache-2.0 |
| Stars | 175 |
| Forks | 14 |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
最新のissue
- トレーニングデータ構築パイプラインに期待 (更新: 2026-05-12 / looking forward to the training data construction pipeline)
- [議論] マルチモーダルコンテキスト処理におけるRLの学習と推論の不一致 (更新: 2026-05-11 / [Discussion] RL 训练与推理在多模态上下文处理上的不一致)
