tessera

概要

Tesseraは、大規模なLLM（教師モデル）を小型のLLM（生徒モデル）に蒸留し、その生徒モデルを効率的に提供することを目的とした、スクラッチから構築されたLLMスタックです。

カスタムのTriton/CUDAカーネル、FSDP蒸留、ページングされたKVキャッシュによる連続バッチ処理、投機的デコーディング、INT8/AWQ/FP8などの量子化技術を特徴とします。

推論エンジンへのリクエストを処理するRust製のゲートウェイも含まれます。

LLMの蒸留、効率的なデプロイ、および低レベルの最適化に関心のある開発者や研究者に適しています。

GitHub: https://github.com/zengxiao-he/tessera