概要
本プロジェクトは、NeRF (Neural Radiance Fields) を用いて合成RGB-Dデータを生成し、Vision Transformer (ViT) モデルのファインチューニングを改善する研究です。
Tiny RoMa(ステレオ特徴マッチング)とDepth-Anything-V2(単眼深度推定)モデルを対象に、Instant-NGPで生成した合成データを既存データセットや自作データセットに統合し、その影響を評価しています。
結果として、ステレオマッチングにはわずかな改善が見られた一方、単眼深度推定では性能低下や学習の不安定さが観察され、合成データの慎重な利用が示唆されました。
コンピュータビジョン研究者やAI開発者で、合成データによるTransformerモデルのデータ拡張手法に関心があるユーザーを想定しており、PyTorch、FastAPI、React、Gradioを用いたインタラクティブなデモアプリも提供されています。
互換性・特徴
- Python
- Web UI
- 研究プロジェクト
- NeRF
- コンピュータビジョン
- Transformer Models
基本情報
| ライセンス | MIT |
| Stars | 1 |
| カテゴリ | 3D / NeRF |
| アクティビティ | low |
