概要
本リポジトリは、JAX/Flax/Optaxを用いてTPU v4-8上で7BパラメータのTransformerモデルをトレーニングする際に遭遇する、メモリ不足(OOM)およびシャーディングエラーの解決策を詳細に解説しています。
パラメータのシャーディングの数学的な根拠と、`flax.training.train_state.TrainState`に依存せず、`params`、`opt_state`、`step`を個別に管理する具体的なアプローチを示します。
大規模モデルのJAX+TPUトレーニングにおけるメモリ管理や分散学習の課題に直面している開発者を主な対象としています。
互換性・特徴
- JAX
- Python
- TPU
- 機械学習
- 大規模モデル
- CLI
基本情報
| Stars | 1 |
| カテゴリ | LLM |
| アクティビティ | low |