3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

crawl-rag

★ 6 NOASSERTION 更新: 2026-05-01 GitHubで見る →

概要

crawl-ragは、RAG(Retrieval Augmented Generation)の知識ベースファイルを生成するためのWebクローラーライブラリです。

TypeScript/JavaScriptで記述されており、npmを通じて簡単にインストール・利用できます。

最大クロール深度、最大ページ数、許可ドメインなどを設定でき、特定のWebサイトから情報を効率的に抽出し、構造化された知識ベースを構築できます。

クロール結果はJSON形式で保存できるため、ベクトルデータベースへの取り込みや、個別のドキュメントとしてコンテンツにアクセスすることが可能です。

RAGシステムを構築する開発者や、Webサイトコンテンツを基にした情報検索システムを開発したいユーザーに適しています。

互換性・特徴

  • JavaScript
  • TypeScript
  • Webクローラー
  • RAG
  • 知識ベース生成
  • ライブラリ

基本情報

ライセンスNOASSERTION
Stars6
カテゴリLLM
アクティビティlow

GitHub: https://github.com/jmerelnyc/crawl-rag