概要
PrismRAGは、PDFドキュメント内のテキストだけでなく、図、チャート、テーブルといった視覚情報からも質問に答えるマルチモーダルRAGシステムです。
従来のテキストベースの検索では見落とされがちな、図中の要素の色や形状などの情報を、ビジョンLLMを用いて正確に抽出・回答することが可能です。
クエリの内容に応じて、テキストリトリーバーとビジュアルリトリーバーを動的にルーティングする機能を持ち、特にビジュアル情報を含む質問に対する回答精度を大幅に向上させます。
科学論文などの複雑なPDFからの情報抽出に課題を感じている開発者や研究者に最適なツールです。
互換性・特徴
- Python
- CLI
- RAG
- Multimodal
- GPU必須
基本情報
| ライセンス | MIT |
| Stars | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
