3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

vlm4ocr

★ 10 ⑂ 1 MIT 更新: 2026-05-05 GitHubで見る →

概要

vlm4ocrは、Vision Language Models (VLMs) を活用して高精度なOCR(光学文字認識)を可能にするPythonパッケージおよびWebアプリケーションです。

PDF、画像ファイル(TIFF, PNG, JPGなど)に対応し、OllamaやOpenAI互換VLMエンジンなど多様なVLMをサポートします。

Markdown、HTML、JSON、BBoxといった様々な形式で出力可能で、文書全体だけでなく、キー情報の抽出にも優れています。

CLIやドラッグ&ドロップ対応のWebアプリ、Pythonによるバッチ処理機能を備え、大量のドキュメントを効率的に処理したい開発者や、手軽に高度なOCRを利用したいユーザーに最適です。

互換性・特徴

  • Python
  • Web UI
  • CLI
  • VLM対応
  • バッチ処理
  • キー情報抽出

基本情報

ライセンスMIT
Stars10
Forks1
カテゴリLLM
アクティビティlow

最新リリース: VLM4OCR v0.5.0 (2026-05-05)

GitHub: https://github.com/daviden1013/vlm4ocr