gaze | AIAI Hub

概要

このツールは、AIにPC画面の「目」を与えるPython製アプリケーションです。

ローカルで動作し、スクリーンショット、視覚モデルによるキャプション生成、OCRによる画面テキスト抽出を行い、AIが利用可能な形式でメモリに保存します。

これにより、AIはユーザーがPCで何を見ているかを理解し、より文脈に沿った会話やアシストが可能になります。

WindowsのネイティブAPIを使用するため、外部ブラウザやNode.jsは不要で、既存のAIプラットフォームに依存せず、CLIで簡単に設定・実行できます。

ゲームや動画、ドキュメントなど、画面上の情報をAIに伝えたい開発者やユーザーに最適です。

プライバシー保護のためのウィンドウブラックリスト機能も備えています。

GitHub: https://github.com/jiangxi1129/gaze