概要
Photo Agentsは、視覚情報に基づいてPCを操作する自律進化型エージェントです。
画面上の情報を認識し、推論し、行動するフレームワークを提供し、人間が行うようにコンピュータを操作させることができます。
LLM(大規模言語モデル)を基盤とし、視覚に基づいた階層型メモリと自己学習によるスキル習得が特徴です。
ローカルで動作し、マルチプロバイダーLLMルーター、ファイルI/O、サンドボックス化されたコード実行、ブラウザ自動化などの物理実行ツールセットを備えています。
StreamlitウェブアプリやPyQtデスクトップアプリなど、複数のクライアントを通じて利用可能で、PCの自動操作やLLMエージェントの開発に関心のあるユーザーに適しています。
互換性・特徴
- Python
- CLI
- Web UI
- Desktop App
- LLM
- 自動化
基本情報
| ライセンス | MIT |
| Stars | 184 |
| Forks | 10 |
| カテゴリ | 未分類 |
| アクティビティ | mid |
