概要
このプロジェクトは、現代の強化学習を実践的に学ぶためのオープンソースカリキュラム「Hands-On Modern RL」です。
従来の理論先行型ではなく、コードと直感的な訓練現象から学び、強化学習の基本的な概念からLLM後訓練、DPO/GRPO、RLVR、マルチモーダルなAgenticシステムといった最先端のAI技術までを網羅しています。
実践を重視し、コードのデバッグ能力や可読性を高める設計原則に基づいています。
機械学習エンジニア、LLM実務者、Agentic RLの構築者、研究者、学生など、強化学習をシステム構築を通じて理解したいPythonおよびPyTorch経験者向けに設計されています。
互換性・特徴
- Python
- PyTorch
- LLM
- 強化学習
- オンラインコース
- オープンソース
基本情報
| ライセンス | NOASSERTION |
| Stars | 3,019 |
| Forks | 199 |
| カテゴリ | LLM |
| アクティビティ | high |
最新のissue
- この説明は少し大ざっぱすぎる (更新: 2026-06-06 / 这个描述有点太随意)
- なぜ rlhf から dpo では4つのモデルが2つのモデルに削減されたのか (更新: 2026-05-26 / 【提问】为什么 rlhf 到 dpo 是从四个模型砍到两个模型了)
- この数学的な表現について説明を追加してほしい (更新: 2026-05-08 / 建议对这个数学语言解释一下)
最新リリース: Hands-On Modern RL Open Textbook v0.2.1 (2026-06-18)
