概要
このリポジトリは、Vision-Language Models (VLM) をストリーミングビデオに応用する研究と開発のための、厳選された論文とオープンソースコードのコレクションです。
リアルタイム対話、長期記憶管理、リアルタイム推論といった主要な課題に焦点を当て、NVIDIAの「Live VLM WebUI」のようなウェブカメラストリーミング対応のリアルタイムVLMインタラクションプロジェクトや、ByteDanceの「Seed」シリーズのようなビデオ通話関連の技術レポートが紹介されています。
VLMをストリーミングビデオ領域で活用したい研究者や開発者、また関連する最先端のプロジェクトや技術動向を追いたい技術者にとって、貴重な情報源となるでしょう。
互換性・特徴
- VLM
- ストリーミングビデオ
- リアルタイム処理
- Python
- Web UI
- GitHub
基本情報
| Stars | 156 |
| Forks | 4 |
| カテゴリ | マルチモーダル |
| アクティビティ | mid |
GitHub: https://github.com/ydyhello/Awesome-VLM-Streaming-Video