vlm4ocr

概要

vlm4ocrは、Vision Language Models (VLMs) を活用して高精度なOCR（光学文字認識）を可能にするPythonパッケージおよびWebアプリケーションです。

PDF、画像ファイル（TIFF, PNG, JPGなど）に対応し、OllamaやOpenAI互換VLMエンジンなど多様なVLMをサポートします。

Markdown、HTML、JSON、BBoxといった様々な形式で出力可能で、文書全体だけでなく、キー情報の抽出にも優れています。

CLIやドラッグ＆ドロップ対応のWebアプリ、Pythonによるバッチ処理機能を備え、大量のドキュメントを効率的に処理したい開発者や、手軽に高度なOCRを利用したいユーザーに最適です。

最新リリース: VLM4OCR v0.5.0 (2026-05-05)

GitHub: https://github.com/daviden1013/vlm4ocr