概要
GLM-OCRは、複雑な文書を高精度に読み取り・解析できるマルチモーダルOCRモデルです。
数式、表、情報抽出まで対応し、実務で多い複雑なレイアウトやコード入り文書、印影付き資料にも強い点が特徴です。
0.9B規模で比較的軽量ながら高性能で、vLLM、SGLang、Ollama、Transformersから利用できます。
文書処理基盤を組み込みたい開発者、業務文書の自動化を進めたい企業、OCR研究者向けのツールです。
互換性・特徴
- OCR
- Python
- CLI
- Transformers
- Ollama
- vLLM対応
基本情報
| ライセンス | mit |
| Likes | 1,704 |
| Downloads | 8,160,550 |
| Pipeline | image-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | high |
HuggingFace: https://huggingface.co/zai-org/GLM-OCR
