概要
このプロジェクトは、1,000万件以上の大規模なドキュメント群に対応し、幻覚(Hallucination)をほぼゼロに抑えることを目指すRAG(検索拡張生成)パイプラインの構築に焦点を当てています。
特徴として、エージェントが生成した回答の証拠を自身で検証し、各主張に引用を付与することで、回答の信頼性を高めます。
また、不明な場合には回答を棄権するメカニズムも備えています。
このパイプラインは、データの前処理、ハイブリッドインデックスの構築、情報検索とリランキング、質問のルーティングと分解、引用付き生成、主張の検証、自己修正型CRAGループの統合、そして評価とスケーリングまで、包括的なコンポーネントで構成されています。
想定ユーザーは、大量の非構造化データから正確で信頼性の高い情報を抽出し、LLMの幻覚問題を克服したい開発者や研究者です。
互換性・特徴
- RAG
- 大規模データ
- 幻覚抑制
- Python
基本情報
| ライセンス | MIT |
| Stars | 4 |
| カテゴリ | LLM |
| アクティビティ | low |
GitHub: https://github.com/FareedKhan-dev/rag-zero-hallucinations
