1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

WikiSeeker

★ 14 Apache-2.0 更新: 2026-04-18 GitHubで見る →

概要

WikiSeekerは、知識ベースの視覚的質問応答(KB-VQA)のために開発された革新的なマルチモーダルRAGフレームワークです。

従来のVision-Language Models(VLMs)の役割を再定義し、RefinerとInspectorという2つの専門エージェントとして活用します。

Refinerは、入力画像に基づいてテキストクエリを最適化することでマルチモーダルリトリーバーの精度を大幅に向上させます。

一方、Inspectorは、取得したコンテキストの信頼性に応じて回答生成をルーティングし、場合によってはVLM自身の内部知識を活用するデカップルされた生成戦略を可能にします。

これにより、KB-VQAの性能向上を目指し、研究者や開発者がより高度な視覚的質問応答システムを構築する際に役立つことが期待されます。

互換性・特徴

  • Python
  • CLI
  • マルチモーダル
  • RAG
  • VLM
  • LLM

基本情報

ライセンスApache-2.0
Stars14
カテゴリマルチモーダル
アクティビティlow

最新のissue

GitHub: https://github.com/zhuyjan/WikiSeeker