1,753 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

jax-7b-tpu-sharding

★ 1 更新: 2026-05-13 GitHubで見る →

概要

本リポジトリは、JAX/Flax/Optaxを用いてTPU v4-8上で7BパラメータのTransformerモデルをトレーニングする際に遭遇する、メモリ不足(OOM)およびシャーディングエラーの解決策を詳細に解説しています。

パラメータのシャーディングの数学的な根拠と、`flax.training.train_state.TrainState`に依存せず、`params`、`opt_state`、`step`を個別に管理する具体的なアプローチを示します。

大規模モデルのJAX+TPUトレーニングにおけるメモリ管理や分散学習の課題に直面している開発者を主な対象としています。

互換性・特徴

  • JAX
  • Python
  • TPU
  • 機械学習
  • 大規模モデル
  • CLI

基本情報

Stars1
カテゴリLLM
アクティビティlow

GitHub: https://github.com/AsphaltProAT/jax-7b-tpu-sharding