概要
SmolVLM2-2.2Bを搭載したエッジ展開可能なビジョンエージェントで、CPUのみのハードウェア(16GB RAM)で動作します。
ライブウェブカメラフィードまたは画像フォルダを入力として取り込み、モーション検出に基づいて継続的な視覚監視を実行します。
新しいオブジェクトの記述、画像からのテキスト読み取り(レシート、ホワイトボード、看板など)、および構造化された観察結果のログ記録が可能です。
観察結果はタイムスタンプ、サムネイル、説明、信頼度スコアとともにローカルのSQLiteデータベースに永続化されます。
ライブフィード、最新の観察結果、検索可能なログを備えたFastAPIウェブダッシュボードを提供し、完全にオフラインで動作するため、APIコストやネットワーク呼び出しは発生しません。
ホームセキュリティカメラ分析、ドキュメントデジタル化パイプライン、アクセシビリティツールなどのユースケースに適しています。
互換性・特徴
- Python
- CLI
- Web UI
- CPU動作
- オフライン
基本情報
| Stars | 3 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
GitHub: https://github.com/dakshjain-1616/SmolVLM2-Edge-Vision-Agent