概要
Jarvis Vision Assistantは、Python、Arduino、ウェブカメラ、テキスト読み上げ、Google Gemini Vision、パン/チルトサーボ制御を統合した、音声制御の視覚アシスタントのプロトタイプです。
本ツールは音声コマンドを解釈し、カメラを動かしてウェブカメラの映像をキャプチャし、Google Geminiの画像認識能力を活用してシーンの記述や視覚的な数学問題の解決を行います。
ハードウェアとソフトウェアの連携により、音声入力、カメラ処理、AIビジョン、Arduino制御を組み合わせた実用的なデモンストレーションを提供します。
開発者やAI、ロボット工学に関心のあるユーザーが、音声インターフェースとコンピュータービジョンの統合を学ぶのに適しています。
互換性・特徴
- Python
- CLI
- ハードウェア制御
- AI / 機械学習
- 音声認識
- OpenCV
基本情報
| Stars | 1 |
| カテゴリ | ASR / 音声認識 |
| アクティビティ | low |
