概要
TokDriftは、LLMがサブワードでコードを生成する一方、実際のコードは文法を持つというギャップを研究するためのフレームワークです。
意味を維持しつつコードを書き換えるルールを適用し、その変化が様々なコード関連タスク(例: コード生成、コード理解)にどう影響するかを測定します。
主な特徴は、簡単な環境構築(uvまたはconda)、Hugging Faceデータセットの利用、実験実行スクリプトの提供です。
LLMのコード生成やコード分析に興味を持つ研究者や開発者を想定しています。
互換性・特徴
- Python
- CLI
- LLM関連
- GPU推奨
- Hugging Face
- Conda/uv
基本情報
| Stars | 9 |
| Forks | 1 |
| カテゴリ | LLM |
| アクティビティ | low |
最新のissue
- Hugging Face で TokDrift Code Variants データセットをリリース (更新: 2025-10-21 / Release TokDrift Code Variants dataset on Hugging Face)
