flash-opd

概要

FlashOPDは、わずか650行のコアコードでOn-Policy Distillation (OPD) を完全に実装した軽量なツールです。

既存の複雑なフレームワークと比較して圧倒的に少ないコード量で同等の機能を提供し、簡単なインストールと短い学習曲線が特徴です。

vLLM OpenAI APIを介したAPI Teacher、多様なKL散度タイプ、動的なLossバランス、DeepSpeed/FSDPによる分散学習をサポートしています。

大規模言語モデルの蒸留をシンプルかつ効率的に行いたい研究者や開発者に最適で、YAML設定ファイルで簡単に構成可能です。

GitHub: https://github.com/china10s/flash-opd