概要
「vision-bridge-skill」は、多モーダル対応ではないAIモデルに対し、画像、PDF、スクリーンショット、図表などの視覚コンテンツを「理解」させる能力を付与するツールです。
写真分析、スクリーンショット認識、PDF閲覧、図表解釈、OCRによる文字抽出、バッチ処理、複数画像比較、ストリーミング出力、信頼度マーカー、形式補正リトライといった多岐にわたる機能を備えています。
AI-to-AIプロトコル通信と多輪会話に対応しており、既存のAIモデルの視覚認識能力を効率的に拡張したい開発者や研究者にとって有用です。
互換性・特徴
- Python
- CLI
- 視覚認識
- PDF対応
- OCR
- AI-to-AI通信
基本情報
| Stars | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
最新リリース: v4.2.0 – AI-to-AI 协议升级 (2026-06-09)
