概要
ThinkJEPAは、ビジョン-言語モデル(VLM)とJEPA(Joint Embedding Predictive Architecture)を統合したデュアルパス具現化予測フレームワークです。
VLMが高レベルな意味推論と長期的な意図を担い、JEPAが低レベルの動的な挙動と物理的な一貫性を制御します。
これにより、複雑な環境下でのエージェントの行動予測と理解を向上させます。
EgoDexスタイルのデータセットを用いた学習・評価環境を提供し、Hugging Faceで事前処理済みキャッシュが利用できるため、強化学習やエージェントシミュレーションの研究者・開発者にとって再現性高く活用できます。
CLIベースで環境構築と実行が可能です。
互換性・特徴
- Python
- GPU必須
- CLI
- Hugging Face
- VLM
- 世界モデル
基本情報
| ライセンス | NOASSERTION |
| Stars | 28 |
| Forks | 5 |
| カテゴリ | LLM |
| アクティビティ | low |
最新のissue
- Qwen3-VL以前のサンプリングされた入力または中間前処理結果は公開可能か? (更新: 2026-05-03 / Could pre-Qwen3-VL sampled inputs or intermediate preprocessing results be released?)
- チェックポイント公開計画とトレーニングリソースに関する質問 (更新: 2026-04-19 / Question about checkpoint release plans and training resources)
