概要
Falcon OCRは、画像から文書テキストを抽出する300Mパラメータ級の軽量OCR向けビジョン言語モデルです。
通常の文字起こしに加え、数式はLaTeX、表はHTMLとして出力でき、プロンプトで形式を切り替えられます。
複雑な多段組み文書向けにはレイアウト検出付きの2段階OCRも用意されています。
比較的小さなモデルで低遅延・高スループットを狙っており、Python環境で文書OCRを組み込みたい開発者や研究者に向いています。
互換性・特徴
- Python
- Transformers
- CLI
- GPU推奨
- OCR
- 文書解析
基本情報
| ライセンス | apache-2.0 |
| Likes | 93 |
| Downloads | 20,948 |
| Pipeline | image-to-text |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
HuggingFace: https://huggingface.co/tiiuae/Falcon-OCR
