概要
Orthrusは、大規模言語モデル(LLM)の推論を高速化するためのデュアルアーキテクチャフレームワークです。
自己回帰型LLMの正確な生成忠実性と、拡散モデルの高速な並列トークン生成を統合し、最大7.8倍の推論加速をロスレスで実現します。
特徴として、O(1)のメモリキャッシュオーバーヘッドで高いメモリ効率を誇り、モデル全体の16%のパラメータのみをファインチューニングすることで並列生成能力を付与します。
既存の投機的デコーディング手法と比較して優れたパフォーマンスを発揮するため、LLMの推論速度向上を目指す開発者や研究者に最適なツールです。
互換性・特徴
- Python
- GPU必須
- HuggingFace対応
- CLI
- Colab対応
基本情報
| ライセンス | MIT |
| Stars | 423 |
| Forks | 17 |
| カテゴリ | LLM |
| アクティビティ | mid |
最新のissue
- トレーニングコード (更新: 2026-06-11 / Training code)
- 表1および表2の結果を再現できません (更新: 2026-06-10 / Unable to Reproduce Results in Tables 1 and 2)
- MTPと比較してどうですか? (更新: 2026-06-05 / How does it compare to MTP?)
- Orthrus最適化済みQwen3.6-27Bモデルのサポートに関する検討 (更新: 2026-06-01 / Support for Orthrus-optimized Qwen3.6-27B Model)
