概要
vid2llmは、あらゆる動画からマルチモーダル言語モデル(LLM)向けのフレームを効率的に抽出するPythonツールキットです。
デコーダーの複雑さを軽減し、スマートなサンプリング、シーン検出(将来対応予定)、OCR(将来対応予定)機能を提供します。
OpenCV, PyAV, ffmpegといった複数のバックエンドに対応し、自動で最適なものを選択します。
開発者は、動画から適切な画像を簡単に取得し、LLMへの入力として活用できます。
Python APIとCLIの両方を提供し、柔軟なフレーム抽出戦略で、特にマルチモーダルLLMを利用する開発者や研究者に適しています。
互換性・特徴
- CLI
- Python
- Linux
- Windows
- Multimodal LLM連携
基本情報
| ライセンス | Apache-2.0 |
| Stars | 3 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
最新リリース: v0.1.1 (2026-06-16)
