3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

#OCR (15 repos)

「OCR」タグが付いたリポジトリ

← 全リポジトリ

AIエージェント
GitHub
llama_index
LlamaIndexは、大規模言語モデル(LLM)と社内文書などの独自データを効率的に連携させるためのデータフレームワーク…
★ 50.1k ⑂ 7.6k MIT 2026-06-12
音声生成 / TTS
GitHub
pot-desktop
Potは、Windows、macOS、Linuxに対応したクロスプラットフォームのテキスト翻訳およびOCRソフトウェアです。主要機能…
★ 18.8k ⑂ 920 GPL-3.0 2026-06-12
AIエージェント
GitHub
Upsonic
Upsonicは、Pythonで自律型AIエージェントや従来のAIエージェントを構築するためのフレームワークです。大規模言語モ…
★ 7.9k ⑂ 735 MIT 2026-06-15
マルチモーダル
HF
GLM-OCR
GLM-OCRは、複雑な文書を高精度に読み取り・解析できるマルチモーダルOCRモデルです。数式、表、情報抽出まで対応し…
❤ 1.8k ↓ 3.2M mit 2026-05-19
マルチモーダル
GitHub
GLM-skills
「zai-org/GLM-skills」は、GLMモデルファミリー向けの公式スキルセットを統合したリポジトリです。Claude Code、Ope…
★ 426 ⑂ 34 Apache-2.0 2026-04-15
LLM
GitHub
TurboOCR
TurboOCRは、C++、CUDA、TensorRT技術を活用した高速GPU OCRサーバーです。FUNSDデータセットで270 img/s、疎な画像…
★ 301 ⑂ 36 MIT 2026-06-11
LLM
GitHub
rag-document-intelligence
このツール「rag-document-intelligence」は、Windows上でPDFやスキャンされた文書を扱うためのアプリケーションです…
★ 4 ⑂ 1 MIT 2026-06-16
音声生成 / TTS
GitHub
seshat-tts
Seshat TTSは、Windows向けのGUIユーティリティで、ゲームやアプリケーション向けにリアルタイムの音声ストリーミン…
★ 3 ⑂ 1 NOASSERTION 2026-06-19
ASR / 音声認識
GitHub
scenelens
Scenelensは、Claudeにスマートな動画入力機能を提供するツールです。動画からシーン変化に基づいて最適なフレームを…
★ 3 MIT 2026-05-04
マルチモーダル
GitHub
gaze
このツールは、AIにPC画面の「目」を与えるPython製アプリケーションです。ローカルで動作し、スクリーンショット、…
★ 1 MIT 2026-06-17
マルチモーダル
GitHub
vision-bridge-skill
「vision-bridge-skill」は、多モーダル対応ではないAIモデルに対し、画像、PDF、スクリーンショット、図表などの視…
★ 1 2026-06-11
音声生成 / TTS
GitHub
MyFreeSpeech-App-Reader
このツールは、PowerShellで構築された高機能なテキスト読み上げ(TTS)アプリケーション「My Free Speech Reader」…
★ 1 GPL-3.0 2026-05-17
ASR / 音声認識
GitHub
tiktok-extractor
このツールは、TikTokのURLから動画のメタデータ、完全な文字起こし、シーンのキーフレーム、画面上のOCRテキストを…
★ 1 MIT 2026-05-24
LLM
GitHub
danwa
Danwa(だんわ)は、AIエージェントが議論を分析、評価、最適化するための監査可能なマルチエージェント討論プラット…
★ 0 2026-06-21