3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

chunky

★ 123 ⑂ 9 MIT 更新: 2026-06-06 GitHubで見る →

概要

Chunkyは、RAG(Retrieval-Augmented Generation)パイプラインの品質を向上させるためのローカルでオープンソースのツールです。

PDFをMarkdownに変換する際のデータ破損や、不適切なチャンク戦略に起因する幻覚(hallucination)を防ぐことを目的としています。

PDFとMarkdownを並べて表示するサイドバイサイドビューア、PyMuPDFなど6種類のPDF-Markdown変換器、LangChainやChonkieを含む14種類のチャンキング戦略を提供し、Markdownのクリーンアップやチャンクの自動タイトル・要約生成といったエンリッチメント機能も備えています。

想定ユーザーは、RAGパイプラインを開発・運用しており、その入力データやチャンクの質に課題を感じているエンジニアやデータサイエンティストです。

バッチ処理やプラグイン可能なアーキテクチャにより、柔軟な利用が可能です。

互換性・特徴

  • Python
  • Node.js
  • FastAPI
  • React
  • CLI
  • Web UI
  • Docker

基本情報

ライセンスMIT
Stars123
Forks9
カテゴリLLM
アクティビティmid

最新リリース: v0.6.0 (2026-06-06)

GitHub: https://github.com/GiovanniPasq/chunky