NeRF-Augmented-ViT

概要

本プロジェクトは、NeRF (Neural Radiance Fields) を用いて合成RGB-Dデータを生成し、Vision Transformer (ViT) モデルのファインチューニングを改善する研究です。

Tiny RoMa（ステレオ特徴マッチング）とDepth-Anything-V2（単眼深度推定）モデルを対象に、Instant-NGPで生成した合成データを既存データセットや自作データセットに統合し、その影響を評価しています。

結果として、ステレオマッチングにはわずかな改善が見られた一方、単眼深度推定では性能低下や学習の不安定さが観察され、合成データの慎重な利用が示唆されました。

コンピュータビジョン研究者やAI開発者で、合成データによるTransformerモデルのデータ拡張手法に関心があるユーザーを想定しており、PyTorch、FastAPI、React、Gradioを用いたインタラクティブなデモアプリも提供されています。

GitHub: https://github.com/denis-vp/NeRF-Augmented-ViT