visualdocqa-kit

概要

VisoRAGは、ローカルGPU環境で動作する、PDF、DOCX、画像ファイルの質問応答や情報抽出に特化したビジョンファーストな文書RAG（Retrieval-Augmented Generation）キットです。

従来のテキスト中心のアプローチとは異なり、文書を画像として処理し、ColQwen2によるページ埋め込みとQdrantによる視覚的類似性検索を経て、Qwen2.5-VLモデルで回答を生成します。

これにより、文書のレイアウトや図表などの視覚的情報を維持したまま、高精度なQAを実現します。

開発者、学生、研究者向けに、視覚的RAGの実装例として提供されており、FastAPIによるWeb APIとCLIを通じて利用可能です。

GitHub: https://github.com/RossDmello2/visualdocqa-kit