概要
TokenSpeedは、agentic workloadsのために設計された「光速」LLM推論エンジンです。
TensorRT-LLMと同等の高性能とvLLMに匹敵する使いやすさを提供し、本番環境でのagentic workloads向けに最高のパフォーマンスを目指します。
モデリング層、C++/Pythonで構成されるスケジューラ、高性能なMLAカーネル、低オーバーヘッドのAsyncLLMが主な特徴です。
GPUを活用し、特に最新のBlackwellアーキテクチャに最適化されています。
想定ユーザーは、高性能なLLM推論を必要とする開発者や企業で、複雑なagenticアプリケーションを運用する際に最適なソリューションを求めている方々です。
現在プレビューリリース中で、さらなる機能拡張とプラットフォーム最適化が進行中です。
互換性・特徴
- GPU必須
- Python
- C++
- LLM推論
- Agentic Workloads
- 高性能
基本情報
| ライセンス | MIT |
| Stars | 985 |
| Forks | 79 |
| カテゴリ | LLM |
| アクティビティ | mid |
