概要
Chunkyは、RAG(Retrieval-Augmented Generation)パイプラインの品質を向上させるためのローカルでオープンソースのツールです。
PDFをMarkdownに変換する際のデータ破損や、不適切なチャンク戦略に起因する幻覚(hallucination)を防ぐことを目的としています。
PDFとMarkdownを並べて表示するサイドバイサイドビューア、PyMuPDFなど6種類のPDF-Markdown変換器、LangChainやChonkieを含む14種類のチャンキング戦略を提供し、Markdownのクリーンアップやチャンクの自動タイトル・要約生成といったエンリッチメント機能も備えています。
想定ユーザーは、RAGパイプラインを開発・運用しており、その入力データやチャンクの質に課題を感じているエンジニアやデータサイエンティストです。
バッチ処理やプラグイン可能なアーキテクチャにより、柔軟な利用が可能です。
互換性・特徴
- Python
- Node.js
- FastAPI
- React
- CLI
- Web UI
- Docker
基本情報
| ライセンス | MIT |
| Stars | 123 |
| Forks | 9 |
| カテゴリ | LLM |
| アクティビティ | mid |
最新リリース: v0.6.0 (2026-06-06)
