概要
このツールは、AIにPC画面の「目」を与えるPython製アプリケーションです。
ローカルで動作し、スクリーンショット、視覚モデルによるキャプション生成、OCRによる画面テキスト抽出を行い、AIが利用可能な形式でメモリに保存します。
これにより、AIはユーザーがPCで何を見ているかを理解し、より文脈に沿った会話やアシストが可能になります。
WindowsのネイティブAPIを使用するため、外部ブラウザやNode.jsは不要で、既存のAIプラットフォームに依存せず、CLIで簡単に設定・実行できます。
ゲームや動画、ドキュメントなど、画面上の情報をAIに伝えたい開発者やユーザーに最適です。
プライバシー保護のためのウィンドウブラックリスト機能も備えています。
互換性・特徴
- Python
- CLI
- Windows対応
- OCR
- 音声認識
- AIプラットフォーム非依存
基本情報
| ライセンス | MIT |
| Stars | 1 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
