Vision-Agents

概要

StreamのOpen Vision Agentsは、リアルタイムビデオAIを構築するためのマルチモーダルAIエージェントフレームワークです。

Streamのエッジネットワークを活用し、超低遅延で音声認識や視覚理解を実現します。

YOLOやRoboflowといったモデルとGemini/OpenAIなどのLLMを組み合わせ、ビデオストリームを直接モデルプロバイダーに送信し、瞬時の視覚分析を可能にします。

React、Android、iOSなどの多様なプラットフォーム向けSDKも提供され、開発者はドローン火災検知、スポーツコーチング、フィットネス指導といった幅広いリアルタイムビデオAIアプリケーションを効率的に開発できます。

最新リリース: v0.6.4 (2026-06-11)

GitHub: https://github.com/GetStream/Vision-Agents