3,198 repos GH 3,083 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

vision-bridge-skill

★ 1 更新: 2026-06-11 GitHubで見る →

概要

「vision-bridge-skill」は、多モーダル対応ではないAIモデルに対し、画像、PDF、スクリーンショット、図表などの視覚コンテンツを「理解」させる能力を付与するツールです。

写真分析、スクリーンショット認識、PDF閲覧、図表解釈、OCRによる文字抽出、バッチ処理、複数画像比較、ストリーミング出力、信頼度マーカー、形式補正リトライといった多岐にわたる機能を備えています。

AI-to-AIプロトコル通信と多輪会話に対応しており、既存のAIモデルの視覚認識能力を効率的に拡張したい開発者や研究者にとって有用です。

互換性・特徴

  • Python
  • CLI
  • 視覚認識
  • PDF対応
  • OCR
  • AI-to-AI通信

基本情報

Stars1
カテゴリマルチモーダル
アクティビティlow

最新リリース: v4.2.0 – AI-to-AI 协议升级 (2026-06-09)

GitHub: https://github.com/SlXiaMi/vision-bridge-skill