tokenspeed

概要

TokenSpeedは、agentic workloadsのために設計された「光速」LLM推論エンジンです。

TensorRT-LLMと同等の高性能とvLLMに匹敵する使いやすさを提供し、本番環境でのagentic workloads向けに最高のパフォーマンスを目指します。

モデリング層、C++/Pythonで構成されるスケジューラ、高性能なMLAカーネル、低オーバーヘッドのAsyncLLMが主な特徴です。

GPUを活用し、特に最新のBlackwellアーキテクチャに最適化されています。

想定ユーザーは、高性能なLLM推論を必要とする開発者や企業で、複雑なagenticアプリケーションを運用する際に最適なソリューションを求めている方々です。

現在プレビューリリース中で、さらなる機能拡張とプラットフォーム最適化が進行中です。

GitHub: https://github.com/lightseekorg/tokenspeed