概要
TurboQuantは、LLM(大規模言語モデル)のKVキャッシュを研究用途でベクトル量子化するためのRust製ライブラリです。
合成データ、トレースデータ、軽量ONNXモデルでのエンドツーエンド推論という3つのベンチマーク/評価パスを備え、CPUパスがデフォルトですが、WGPUを利用した実験的なGPUパスも提供します。
主な特徴として、再構築指向と内積指向のベクトル量子化、量子化されたKVキャッシュの管理機能があり、`distilgpt2`などの軽量モデルでの動作が検証されています。
現在のバージョンはアルファ版であり、LLMの量子化技術を研究、ベンチマーク、統合実験する開発者や研究者に特に適しています。
互換性・特徴
- Rust
- LLM
- KV Cache
- ONNX
- CPU/GPU
- 研究用途
基本情報
| ライセンス | MIT |
| Stars | 34 |
| Forks | 10 |
| カテゴリ | LLM |
| アクティビティ | low |
最新のissue
- GGUFサポート (更新: 2026-04-18 / GGUF support)
