GLM-OCR

概要

GLM-OCRは、複雑な文書を高精度に読み取り・解析できるマルチモーダルOCRモデルです。

数式、表、情報抽出まで対応し、実務で多い複雑なレイアウトやコード入り文書、印影付き資料にも強い点が特徴です。

0.9B規模で比較的軽量ながら高性能で、vLLM、SGLang、Ollama、Transformersから利用できます。

文書処理基盤を組み込みたい開発者、業務文書の自動化を進めたい企業、OCR研究者向けのツールです。

HuggingFace: https://huggingface.co/zai-org/GLM-OCR