概要
vlm4ocrは、Vision Language Models (VLMs) を活用して高精度なOCR(光学文字認識)を可能にするPythonパッケージおよびWebアプリケーションです。
PDF、画像ファイル(TIFF, PNG, JPGなど)に対応し、OllamaやOpenAI互換VLMエンジンなど多様なVLMをサポートします。
Markdown、HTML、JSON、BBoxといった様々な形式で出力可能で、文書全体だけでなく、キー情報の抽出にも優れています。
CLIやドラッグ&ドロップ対応のWebアプリ、Pythonによるバッチ処理機能を備え、大量のドキュメントを効率的に処理したい開発者や、手軽に高度なOCRを利用したいユーザーに最適です。
互換性・特徴
- Python
- Web UI
- CLI
- VLM対応
- バッチ処理
- キー情報抽出
基本情報
| ライセンス | MIT |
| Stars | 10 |
| Forks | 1 |
| カテゴリ | LLM |
| アクティビティ | low |
最新リリース: VLM4OCR v0.5.0 (2026-05-05)
