3,616 repos GH 3,501 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

マルチモーダル

WikiSeeker

★ 15 Apache-2.0 更新: 2026-04-18 GitHubで見る →

#CLI #LLM #Python #RAG #VLM #マルチモーダル

概要

WikiSeekerは、知識ベースの視覚的質問応答（KB-VQA）のために開発された革新的なマルチモーダルRAGフレームワークです。

従来のVision-Language Models（VLMs）の役割を再定義し、RefinerとInspectorという2つの専門エージェントとして活用します。

Refinerは、入力画像に基づいてテキストクエリを最適化することでマルチモーダルリトリーバーの精度を大幅に向上させます。

一方、Inspectorは、取得したコンテキストの信頼性に応じて回答生成をルーティングし、場合によってはVLM自身の内部知識を活用するデカップルされた生成戦略を可能にします。

これにより、KB-VQAの性能向上を目指し、研究者や開発者がより高度な視覚的質問応答システムを構築する際に役立つことが期待されます。

互換性・特徴

Python
CLI
マルチモーダル
RAG
VLM
LLM

基本情報

ライセンス	Apache-2.0
Stars	15
カテゴリ	マルチモーダル
アクティビティ	low

最新のissue

Refiner向けRLトレーニングコードの推定リリース時期に関する要求 (更新: 2026-05-21 / Request for estimated timeline of releasing RL training code for Refiner)

GitHub: https://github.com/zhuyjan/WikiSeeker

← 全リポジトリ一覧へ