概要
VidCom2は、Video Large Language Models (VideoLLMs) の推論を高速化するためのプラグアンドプレイなフレームワークです。
動的なフレーム予算配分を特徴とする初のトークン圧縮フレームワークであり、VideoLLMの効率的な推論を実現します。
VisionZip、DyCoke、FastVIDなどの代表的なベースラインと統合され、QwenやLLaVAといった多様なモデルシリーズをサポートしています。
長尺動画の理解において推論速度の向上を目指すAI研究者や開発者、特にVideoLLMのパフォーマンス最適化に関心のあるユーザーに最適です。
互換性・特徴
- Python
- GPU必須
- CLI
- VideoLLM
- 推論高速化
- フレームワーク
基本情報
| ライセンス | Apache-2.0 |
| Stars | 126 |
| Forks | 14 |
| カテゴリ | LLM |
| アクティビティ | mid |
