Text-to-Motion

概要

Text-to-Motionは、テキストプロンプトからG1 Unitreeヒューマノイドロボット用の参照モーションを生成するプロジェクトです。

WBC（全身制御）やVLA（視覚言語行動）トレーニングのための合成データ生成に活用できます。

このツールは、flow-matching生成と31MパラメータのTransformerデコーダを基盤とし、Tritonカーネル最適化により高い効率でトレーニングと推論を実行します。

生成されたモーションはViserを用いて視覚化可能です。

NVIDIA A100-SXM4-80GB GPUが必須となるため、主にヒューマノイドロボットのモーション生成や学習データ構築に取り組む研究者、開発者、および高性能な計算リソースを持つユーザーを対象としています。

GitHub: https://github.com/HAshIRa7/Text-to-Motion