3,369 repos GH 3,254 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

paddleocr-pdf-api

★ 9 ⑂ 2 更新: 2026-05-28 GitHubで見る →

概要

このツールは、PDFをOCR処理し、結果をMarkdown形式で返す自己ホスト型APIです。

PaddleOCRとPaddleOCR-VLモデルを搭載しており、GPUを利用してDockerコンテナ内で動作します。

スキャンされたPDFドキュメントをページごとに処理し、JSON形式でMarkdownコンテンツを返します。

約8.5GBのVRAMを搭載したNVIDIA GPUが必須であり、Latvian語やLithuanian語に良好な(完璧ではない)対応をしています。

大規模なドキュメントのOCR処理を自動化したい開発者や企業ユーザーに適しています。

互換性・特徴

  • GPU必須
  • Docker
  • Web API
  • PDF対応
  • 多言語対応
  • Markdown出力

基本情報

Stars9
Forks2
カテゴリマルチモーダル
アクティビティlow

最新リリース: v0.3.0 (2026-05-29)

GitHub: https://github.com/Edgaras0x4E/paddleocr-pdf-api