3,369 repos GH 3,254 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

egobabyvlm

★ 5 NOASSERTION 更新: 2026-05-29 GitHubで見る →

概要

本リポジトリは、EgoBabyVLMチャレンジのインフラを提供します。

これは、乳幼児の一人称視点ビデオデータ(BabyView 2025.1コーパス)のみを用いてVision-Language Model(VLM)を訓練し、その性能をベンチマークするためのものです。

主な特徴は、外部データを使用せずに、クロスモーダルグラウンディング、視覚、言語の3つの異なるタスクファミリーで既存のベースラインを上回るVLMの開発を促進することです。

VLM研究者、特に自然な一人称視点データを用いたクロスモーダル学習やアルゴリズム開発に関心のある研究者が主な対象ユーザーです。

互換性・特徴

  • Python
  • PyTorch
  • VLM
  • 研究
  • ベンチマーク
  • データセット

基本情報

ライセンスNOASSERTION
Stars5
カテゴリマルチモーダル
アクティビティlow

最新リリース: Evaluation Datasets (2026-05-27)

GitHub: https://github.com/facebookresearch/egobabyvlm