概要
VisoRAGは、ローカルGPU環境で動作する、PDF、DOCX、画像ファイルの質問応答や情報抽出に特化したビジョンファーストな文書RAG(Retrieval-Augmented Generation)キットです。
従来のテキスト中心のアプローチとは異なり、文書を画像として処理し、ColQwen2によるページ埋め込みとQdrantによる視覚的類似性検索を経て、Qwen2.5-VLモデルで回答を生成します。
これにより、文書のレイアウトや図表などの視覚的情報を維持したまま、高精度なQAを実現します。
開発者、学生、研究者向けに、視覚的RAGの実装例として提供されており、FastAPIによるWeb APIとCLIを通じて利用可能です。
互換性・特徴
- Python
- CLI
- Web API (FastAPI)
- GPU必須
- マルチモーダル文書対応
- RAG
基本情報
| ライセンス | MIT |
| Stars | 2 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
