概要
WikiSeekerは、知識ベースの視覚的質問応答(KB-VQA)のために開発された革新的なマルチモーダルRAGフレームワークです。
従来のVision-Language Models(VLMs)の役割を再定義し、RefinerとInspectorという2つの専門エージェントとして活用します。
Refinerは、入力画像に基づいてテキストクエリを最適化することでマルチモーダルリトリーバーの精度を大幅に向上させます。
一方、Inspectorは、取得したコンテキストの信頼性に応じて回答生成をルーティングし、場合によってはVLM自身の内部知識を活用するデカップルされた生成戦略を可能にします。
これにより、KB-VQAの性能向上を目指し、研究者や開発者がより高度な視覚的質問応答システムを構築する際に役立つことが期待されます。
互換性・特徴
- Python
- CLI
- マルチモーダル
- RAG
- VLM
- LLM
基本情報
| ライセンス | Apache-2.0 |
| Stars | 14 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
最新のissue
- Refiner向けRLトレーニングコードの推定リリース時期に関する要求 (更新: 2026-05-21 / Request for estimated timeline of releasing RL training code for Refiner)
