3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

KVarN

★ 409 ⑂ 24 Apache-2.0 更新: 2026-06-16 GitHubで見る →

#CLI #GPU必須 #KVキャッシュ量子化 #LLM最適化 #Python #vLLM対応

概要

KVarNは、LLMのKVキャッシュ量子化をvLLM環境で実現するネイティブバックエンドです。

特に、エージェントや長文コンテキスト処理のワークロード向けに設計されており、KVキャッシュ容量を3〜5倍に拡張しながら、FP16と同等またはそれ以上のスループットと精度を維持します。

キャリブレーションが不要で、vLLMにフラグ一つで簡単に組み込むことができます。

既存のKVキャッシュ量子化手法がスループットや精度を犠牲にするのに対し、KVarNはこれらのトレードオフを解消し、より効率的で高品質なLLM運用を可能にします。

vLLMを利用して大規模なLLMアプリケーションを開発する研究者やエンジニアが主な想定ユーザーです。

互換性・特徴

vLLM対応
Python
CLI
GPU必須
LLM最適化
KVキャッシュ量子化

基本情報

ライセンス	Apache-2.0
Stars	409
Forks	24
カテゴリ	LLM
アクティビティ	mid

最新のissue

KVarN KVキャッシュのdtype kvarn_k4v2_g128はhead_dim=128でのみ動作しますか？ (更新: 2026-06-15 / [Usage]: KVarN KV cache dtype kvarn_k4v2_g128 only works with head_dim=128?)
kvarn_k4v2_g128のスループットがバッチサイズでスケールしない (動的バッチ処理でSinkhornカーネルが毎回JIT再コンパイル) (更新: 2026-06-13 / kvarn_k4v2_g128 throughput does not scale with batch size (Sinkhorn kernel JIT-recompiles per step under dynamic batching))
Qwen3.6-27BでのAgentic Workloadツール呼び出し (更新: 2026-06-11 / [Usage]: Agentic Workload Tool Calling with Qwen3.6-27B)
KVarNとGemma-4-31B-it (更新: 2026-06-10 / [Usage]: KVarN & Gemma-4-31B-it)

GitHub: https://github.com/huawei-csl/KVarN

← 全リポジトリ一覧へ