概要
このプロジェクト「tiny-llm」は、システムエンジニア向けに大規模言語モデル(LLM)の推論サービスをMLXフレームワーク上で構築・学習するための実践的なコースです。
Apple Silicon環境に特化し、高レベルなライブラリに依存せず、Qwen3モデルを用いた推論システムの基礎(Attention, RoPEなど)から、vLLMに似た高度な最適化技術(KVキャッシュ、連続バッチ処理、Flash Attentionなど)までをPythonでゼロから実装します。
効率的なLLM推論の仕組みを深く理解したい開発者や、macOS上でLLMの学習・実装を行いたいシステムエンジニアを想定ユーザーとしています。
互換性・特徴
- Python
- MLX
- Apple Silicon
- LLM推論
- 学習コース
基本情報
| ライセンス | Apache-2.0 |
| Stars | 4,294 |
| Forks | 333 |
| カテゴリ | LLM |
| アクティビティ | high |
最新のissue
- tutorialをCUDA向けにシンプルに移植・適応させた実装例です。 (更新: 2026-05-08 / A simple CUDA adaptation of the tutorial)
- Flash attentionは、vanilla attentionよりも高速であるというわけではありません。 (更新: 2026-03-07 / Flash attention is not faster than vanilla attention)
