概要
「Awesome On-Policy Distillation」は、強化学習におけるOn-Policy Distillation (OPD) に関する厳選されたリソース集です。
OPDは、蒸留によるサンプル効率とオンポリシー強化学習の分布マッチングを組み合わせた新しい学習パラダイムであり、学生モデルが自身の生成した軌跡に対し、教師モデルから密なトークンレベルの指導を受けて学習します。
大規模言語モデル (LLM) の効率的な訓練手法や、強化学習の応用に関心のある研究者や開発者が主な対象となります。
互換性・特徴
- Python
- LLM
- 強化学習
- ディスティレーション
- 研究用途
基本情報
| Stars | 1 |
| カテゴリ | LLM |
| アクティビティ | low |
