3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

KVarN

★ 409 ⑂ 24 Apache-2.0 更新: 2026-06-16 GitHubで見る →

概要

KVarNは、LLMのKVキャッシュ量子化をvLLM環境で実現するネイティブバックエンドです。

特に、エージェントや長文コンテキスト処理のワークロード向けに設計されており、KVキャッシュ容量を3〜5倍に拡張しながら、FP16と同等またはそれ以上のスループットと精度を維持します。

キャリブレーションが不要で、vLLMにフラグ一つで簡単に組み込むことができます。

既存のKVキャッシュ量子化手法がスループットや精度を犠牲にするのに対し、KVarNはこれらのトレードオフを解消し、より効率的で高品質なLLM運用を可能にします。

vLLMを利用して大規模なLLMアプリケーションを開発する研究者やエンジニアが主な想定ユーザーです。

互換性・特徴

  • vLLM対応
  • Python
  • CLI
  • GPU必須
  • LLM最適化
  • KVキャッシュ量子化

基本情報

ライセンスApache-2.0
Stars409
Forks24
カテゴリLLM
アクティビティmid

最新のissue

GitHub: https://github.com/huawei-csl/KVarN