概要
saravananravi08/glm-ocrは、GLM-OCRビジョン言語モデルを搭載した純粋なRust製OCR推論エンジンです。
PythonやPyTorchが不要で、HuggingFaceのCandle MLフレームワーク上に構築されています。
シングルバイナリとして提供され、CPUおよびCUDAによるGPUでの高速推論に対応しています。
Q8_0/Q4_0量子化によりCPUでの高速化も可能です。
PP-DocLayout-Mを使用したレイアウト検出機能を持ち、ドキュメントの自動セグメンテーションができます。
出力は、型付きセクション、バウンディングボックス、キーバリューペア、解析済みテーブルを含むJSON形式で、大規模ドキュメントにも対応しています。
Python環境に依存せず、高速で構造化されたOCR結果を求める開発者や、組み込みシステムでのOCR利用を検討しているユーザーに最適です。
互換性・特徴
- Rust
- CLI
- GPU対応
- CPU対応
- OCR
- CUDA対応
基本情報
| Stars | 4 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
