概要
このプロジェクトは、Kimi TeamとMoonshotAIによる「Attention Residuals」のPyTorch実装です。
Grouped Query Attention (GQA)、SwiGLUフィードフォワードネットワーク、Rotary Position Embeddings (RoPE) を統合し、クリーンな単一ファイルで提供されます。
研究目的や教育目的で、Attention Residualsの概念をPyTorchで試したり、学習したりするのに適しています。
最新のTransformerアーキテクチャ要素(Attention Residuals、GQA、SwiGLU、RoPEなど)に関心のある開発者や研究者に特に有用です。
互換性・特徴
- PyTorch
- Python
- ライブラリ
- GPU必須
- 深層学習
基本情報
| ライセンス | Apache-2.0 |
| Stars | 30 |
| Forks | 2 |
| カテゴリ | LLM |
| アクティビティ | low |
最新のissue
- これは既存のQwenモデルに統合できますか? (更新: 2026-03-19 / Could this be integrated into existing Qwen model?)
