3,695 repos GH 3,580 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新
#OCR (15 repos)
「OCR」タグが付いたリポジトリ
← 全リポジトリ
AIエージェント GitHub llama_index
LlamaIndexは、大規模言語モデル(LLM)と社内文書などの独自データを効率的に連携させるためのデータフレームワーク…
★ 50.1k ⑂ 7.6k MIT 2026-06-12
音声生成 / TTS GitHub pot-desktop
Potは、Windows、macOS、Linuxに対応したクロスプラットフォームのテキスト翻訳およびOCRソフトウェアです。主要機能…
★ 18.8k ⑂ 920 GPL-3.0 2026-06-12
AIエージェント GitHub Upsonic
Upsonicは、Pythonで自律型AIエージェントや従来のAIエージェントを構築するためのフレームワークです。大規模言語モ…
★ 7.9k ⑂ 735 MIT 2026-06-15
マルチモーダル GitHub GLM-skills
「zai-org/GLM-skills」は、GLMモデルファミリー向けの公式スキルセットを統合したリポジトリです。Claude Code、Ope…
★ 426 ⑂ 34 Apache-2.0 2026-04-15
LLM GitHub TurboOCR
TurboOCRは、C++、CUDA、TensorRT技術を活用した高速GPU OCRサーバーです。FUNSDデータセットで270 img/s、疎な画像…
★ 301 ⑂ 36 MIT 2026-06-11
LLM GitHub rag-document-intelligence
このツール「rag-document-intelligence」は、Windows上でPDFやスキャンされた文書を扱うためのアプリケーションです…
★ 4 ⑂ 1 MIT 2026-06-16
音声生成 / TTS GitHub seshat-tts
Seshat TTSは、Windows向けのGUIユーティリティで、ゲームやアプリケーション向けにリアルタイムの音声ストリーミン…
★ 3 ⑂ 1 NOASSERTION 2026-06-19
ASR / 音声認識 GitHub scenelens
Scenelensは、Claudeにスマートな動画入力機能を提供するツールです。動画からシーン変化に基づいて最適なフレームを…
★ 3 MIT 2026-05-04
マルチモーダル GitHub gaze
このツールは、AIにPC画面の「目」を与えるPython製アプリケーションです。ローカルで動作し、スクリーンショット、…
★ 1 MIT 2026-06-17
マルチモーダル GitHub vision-bridge-skill
「vision-bridge-skill」は、多モーダル対応ではないAIモデルに対し、画像、PDF、スクリーンショット、図表などの視…
★ 1 2026-06-11
音声生成 / TTS GitHub MyFreeSpeech-App-Reader
このツールは、PowerShellで構築された高機能なテキスト読み上げ(TTS)アプリケーション「My Free Speech Reader」…
★ 1 GPL-3.0 2026-05-17
ASR / 音声認識 GitHub tiktok-extractor
このツールは、TikTokのURLから動画のメタデータ、完全な文字起こし、シーンのキーフレーム、画面上のOCRテキストを…
★ 1 MIT 2026-05-24
LLM GitHub danwa
Danwa(だんわ)は、AIエージェントが議論を分析、評価、最適化するための監査可能なマルチエージェント討論プラット…
★ 0 2026-06-21