mm-docqa

概要

Jmiao11/mm-docqaは、図とテキストが混在するPDF（特に論文の図表を含む）の内容に対して質問し、引用元付きの回答を提供する多モーダルRAG（Retrieval Augmented Generation）システムです。

セマンティックチャンキング、BM25とベクトル検索、RRFを組み合わせたハイブリッド検索、そしてクロスエンコーダーによるリランキングを段階的に適用することで検索精度を高めています。

特に、画像に対してキャプションを生成し埋め込む「caption-then-embed」戦略により、図表も検索対象として扱える点が革新的です。

「インターフェース分離」設計により、主要コンポーネントの交換が容易です。

Python、FastAPI、Gradioを基盤とし、ChromaDBやLLM（DeepSeek/Moonshot）を利用しています。

論文や技術文書から効率的に情報を引き出したい研究者や開発者に最適です。

GitHub: https://github.com/Jmiao11/mm-docqa