vid2llm

概要

vid2llmは、あらゆる動画からマルチモーダル言語モデル（LLM）向けのフレームを効率的に抽出するPythonツールキットです。

デコーダーの複雑さを軽減し、スマートなサンプリング、シーン検出（将来対応予定）、OCR（将来対応予定）機能を提供します。

OpenCV, PyAV, ffmpegといった複数のバックエンドに対応し、自動で最適なものを選択します。

開発者は、動画から適切な画像を簡単に取得し、LLMへの入力として活用できます。

Python APIとCLIの両方を提供し、柔軟なフレーム抽出戦略で、特にマルチモーダルLLMを利用する開発者や研究者に適しています。

最新リリース: v0.1.1 (2026-06-16)

GitHub: https://github.com/leozitogs/vid2llm