jax-7b-tpu-sharding

概要

本リポジトリは、JAX/Flax/Optaxを用いてTPU v4-8上で7BパラメータのTransformerモデルをトレーニングする際に遭遇する、メモリ不足（OOM）およびシャーディングエラーの解決策を詳細に解説しています。

パラメータのシャーディングの数学的な根拠と、`flax.training.train_state.TrainState`に依存せず、`params`、`opt_state`、`step`を個別に管理する具体的なアプローチを示します。

大規模モデルのJAX+TPUトレーニングにおけるメモリ管理や分散学習の課題に直面している開発者を主な対象としています。

GitHub: https://github.com/AsphaltProAT/jax-7b-tpu-sharding