概要
LPWM(Latent Particle World Models)は、自己教師ありのオブジェクト中心型確率的動的モデルで、ICLR 2026で発表された研究です。
動画データから直接、キーポイント、バウンディングボックス、オブジェクトマスクを自律的に発見し、教師なしで豊富なシーン分解を学習できます。
本モデルは動画のみでエンドツーエンドで学習され、行動、言語、画像目標に基づく柔軟な条件付けをサポートします。
また、新しい潜在アクションモジュールを通じて確率的な粒子ダイナミクスをモデル化し、多様な実世界および合成データセットで最先端の結果を達成します。
動画モデリングに加え、意思決定タスク、特に目標条件付き模倣学習にも適用可能です。
AI/MLの研究者や、世界モデル、自己教師あり学習、オブジェクト検出、動画データからの意思決定に関心のある開発者向けのツールです。
互換性・特徴
- PyTorch
- Python
- CLI
- Google Colab対応
- 研究用途
- 動画処理
基本情報
| ライセンス | MIT |
| Stars | 99 |
| Forks | 4 |
| カテゴリ | 動画生成 |
| アクティビティ | low |
最新のissue
- Hugging Faceへのモデル・データセットなどの成果物リリース (更新: 2026-03-06 / Release artifacts (models, datasets) on Hugging Face)
