概要
KVarNは、LLMのKVキャッシュ量子化をvLLM環境で実現するネイティブバックエンドです。
特に、エージェントや長文コンテキスト処理のワークロード向けに設計されており、KVキャッシュ容量を3〜5倍に拡張しながら、FP16と同等またはそれ以上のスループットと精度を維持します。
キャリブレーションが不要で、vLLMにフラグ一つで簡単に組み込むことができます。
既存のKVキャッシュ量子化手法がスループットや精度を犠牲にするのに対し、KVarNはこれらのトレードオフを解消し、より効率的で高品質なLLM運用を可能にします。
vLLMを利用して大規模なLLMアプリケーションを開発する研究者やエンジニアが主な想定ユーザーです。
互換性・特徴
- vLLM対応
- Python
- CLI
- GPU必須
- LLM最適化
- KVキャッシュ量子化
基本情報
| ライセンス | Apache-2.0 |
| Stars | 409 |
| Forks | 24 |
| カテゴリ | LLM |
| アクティビティ | mid |
最新のissue
- KVarN KVキャッシュのdtype kvarn_k4v2_g128はhead_dim=128でのみ動作しますか? (更新: 2026-06-15 / [Usage]: KVarN KV cache dtype kvarn_k4v2_g128 only works with head_dim=128?)
- kvarn_k4v2_g128のスループットがバッチサイズでスケールしない (動的バッチ処理でSinkhornカーネルが毎回JIT再コンパイル) (更新: 2026-06-13 / kvarn_k4v2_g128 throughput does not scale with batch size (Sinkhorn kernel JIT-recompiles per step under dynamic batching))
- Qwen3.6-27BでのAgentic Workloadツール呼び出し (更新: 2026-06-11 / [Usage]: Agentic Workload Tool Calling with Qwen3.6-27B)
- KVarNとGemma-4-31B-it (更新: 2026-06-10 / [Usage]: KVarN & Gemma-4-31B-it)
