概要
StreamのOpen Vision Agentsは、リアルタイムビデオAIを構築するためのマルチモーダルAIエージェントフレームワークです。
Streamのエッジネットワークを活用し、超低遅延で音声認識や視覚理解を実現します。
YOLOやRoboflowといったモデルとGemini/OpenAIなどのLLMを組み合わせ、ビデオストリームを直接モデルプロバイダーに送信し、瞬時の視覚分析を可能にします。
React、Android、iOSなどの多様なプラットフォーム向けSDKも提供され、開発者はドローン火災検知、スポーツコーチング、フィットネス指導といった幅広いリアルタイムビデオAIアプリケーションを効率的に開発できます。
互換性・特徴
- Python
- リアルタイムビデオAI
- 低遅延
- マルチモーダルAI
- LLM連携
- SDK (React/Mobile)
基本情報
| ライセンス | Apache-2.0 |
| Stars | 7,956 |
| Forks | 662 |
| カテゴリ | 音声生成 / TTS |
| アクティビティ | high |
最新リリース: v0.6.4 (2026-06-11)
