概要
このツールは、大規模言語モデル(LLM)のオンポリシー蒸留(OPD)のメカニズムとダイナミクスを系統的に調査する研究プロジェクトです。
OPDの成功と失敗を左右する条件(学生と教師の思考パターンの互換性、教師モデルが提供する新しい能力)を特定し、その知見に基づいて失敗するOPDを回復するための「オフポリシーコールドスタート」と「教師アライメントされたプロンプト選択」という実用的な戦略を提案します。
LLMの蒸留技術の深い理解と効率改善に関心のある研究者や開発者が主な想定ユーザーです。
互換性・特徴
- Python
- CLI
- LLM
- 機械学習
- 研究ツール
- GPU必須
基本情報
| Stars | 660 |
| Forks | 42 |
| カテゴリ | LLM |
| アクティビティ | mid |
GitHub: https://github.com/thunlp/OPD
