egobabyvlm

概要

本リポジトリは、EgoBabyVLMチャレンジのインフラを提供します。

これは、乳幼児の一人称視点ビデオデータ（BabyView 2025.1コーパス）のみを用いてVision-Language Model（VLM）を訓練し、その性能をベンチマークするためのものです。

主な特徴は、外部データを使用せずに、クロスモーダルグラウンディング、視覚、言語の3つの異なるタスクファミリーで既存のベースラインを上回るVLMの開発を促進することです。

VLM研究者、特に自然な一人称視点データを用いたクロスモーダル学習やアルゴリズム開発に関心のある研究者が主な対象ユーザーです。

最新リリース: Evaluation Datasets (2026-05-27)

GitHub: https://github.com/facebookresearch/egobabyvlm