概要
本リポジトリは、EgoBabyVLMチャレンジのインフラを提供します。
これは、乳幼児の一人称視点ビデオデータ(BabyView 2025.1コーパス)のみを用いてVision-Language Model(VLM)を訓練し、その性能をベンチマークするためのものです。
主な特徴は、外部データを使用せずに、クロスモーダルグラウンディング、視覚、言語の3つの異なるタスクファミリーで既存のベースラインを上回るVLMの開発を促進することです。
VLM研究者、特に自然な一人称視点データを用いたクロスモーダル学習やアルゴリズム開発に関心のある研究者が主な対象ユーザーです。
互換性・特徴
- Python
- PyTorch
- VLM
- 研究
- ベンチマーク
- データセット
基本情報
| ライセンス | NOASSERTION |
| Stars | 5 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
最新リリース: Evaluation Datasets (2026-05-27)
