概要
VidGroundは、動画理解ベンチマークや機械学習の後学習データセットに内在する「動画を見なくても回答できる」テキストバイアスを特定し、視覚的な根拠に基づいた質問のみを抽出するツールです。
これにより、データセットの品質を向上させ、RL後学習の精度を最大6.2ポイント向上させることが示されています。
元のデータ量の約69.1%を使用しながらも、よりクリーンなデータセットで優れた結果を出す点が特徴です。
動画理解モデルの精度向上やデータセットの質的改善を目指す研究者やAI開発者、特に動画データセットのバイアス問題に直面しているユーザーに適しています。
互換性・特徴
- Python
- CLI
- データ処理
- 機械学習
- 研究ツール
- ビデオ理解
基本情報
| ライセンス | MIT |
| Stars | 3 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |
最新のissue
- Hugging FaceでVidGround artifacts(モデル、データセット)を公開 (更新: 2026-04-08 / Release VidGround artifacts (models, dataset) on Hugging Face)