Falcon-OCR

概要

Falcon OCRは、3億パラメータを持つ早期結合型ビジョン・言語モデルで、文書のOCR（光学文字認識）に特化しています。

画像を入力として受け取り、要求に応じてプレーンテキスト、数式を表現するLaTeX、または表を表現するHTML形式で情報を抽出できます。

従来のOCRシステムが複数のモジュールを組み合わせるのに対し、Falcon OCRは単一のTransformerで画像パッチとテキストトークンを処理するため、インターフェースがシンプルで、既存のOCR VLMと比較して低レイテンシーで高いスループットを実現します。

主にPythonでの利用が想定されており、開発者や研究者が低コストかつ高速で高精度な文書解析を行うのに適しています。

HuggingFace: https://huggingface.co/tiiuae/Falcon-OCR