272 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

GLM-OCR

★ 1.7k mit 更新: 2026-04-14 HFで見る →

概要

GLM-OCRは、複雑な文書を高精度に読み取り・解析できるマルチモーダルOCRモデルです。

数式、表、情報抽出まで対応し、実務で多い複雑なレイアウトやコード入り文書、印影付き資料にも強い点が特徴です。

0.9B規模で比較的軽量ながら高性能で、vLLM、SGLang、Ollama、Transformersから利用できます。

文書処理基盤を組み込みたい開発者、業務文書の自動化を進めたい企業、OCR研究者向けのツールです。

互換性・特徴

  • OCR
  • Python
  • CLI
  • Transformers
  • Ollama
  • vLLM対応

基本情報

ライセンスmit
Likes1,704
Downloads8,160,550
Pipelineimage-to-text
カテゴリマルチモーダル
アクティビティhigh

HuggingFace: https://huggingface.co/zai-org/GLM-OCR