2,844 repos GH 2,729 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

visualdocqa-kit

★ 2 MIT 更新: 2026-06-01 GitHubで見る →

概要

VisoRAGは、ローカルGPU環境で動作する、PDF、DOCX、画像ファイルの質問応答や情報抽出に特化したビジョンファーストな文書RAG(Retrieval-Augmented Generation)キットです。

従来のテキスト中心のアプローチとは異なり、文書を画像として処理し、ColQwen2によるページ埋め込みとQdrantによる視覚的類似性検索を経て、Qwen2.5-VLモデルで回答を生成します。

これにより、文書のレイアウトや図表などの視覚的情報を維持したまま、高精度なQAを実現します。

開発者、学生、研究者向けに、視覚的RAGの実装例として提供されており、FastAPIによるWeb APIとCLIを通じて利用可能です。

互換性・特徴

  • Python
  • CLI
  • Web API (FastAPI)
  • GPU必須
  • マルチモーダル文書対応
  • RAG

基本情報

ライセンスMIT
Stars2
カテゴリマルチモーダル
アクティビティlow

GitHub: https://github.com/RossDmello2/visualdocqa-kit