概要
DELEGATE-52は、大規模言語モデル(LLM)が様々な専門ドメインの文書編集タスクを長期にわたって委任された際の性能を評価するためのベンチマークツールです。
結晶学、楽譜、Pythonコードなど52の異なるドメインを対象に、LLMが文書を編集し、その後元の状態に復元する「往復編集」の連鎖シミュレーションを実行します。
特徴として、`run_relay.py`で複数のLLMとのインタラクションをシミュレートでき、OpenAIやAzure OpenAIのLLMに対応したラッパーや、ファイルの操作やPythonコードの実行が可能なエージェントハーネスも提供します。
想定ユーザーは、LLMの文書処理能力や長期的な委任タスクにおける信頼性を研究・評価したい開発者や研究者です。
Hugging Faceで提供されるデータセットを使用し、APIキーを設定するだけで簡単に実行できます。
互換性・特徴
- Python
- CLI
- Hugging Face
- OpenAI API
- Azure OpenAI API
- LLM評価
基本情報
| ライセンス | MIT |
| Stars | 113 |
| Forks | 11 |
| カテゴリ | LLM |
| アクティビティ | mid |
最新のissue
- モデル推論設定に関する質問 (更新: 2026-05-26 / Question about model reasoning settings)
- 画像ドメインの対応 (更新: 2026-05-18 / Image domain)
- 評価トレースの実装 (更新: 2026-05-12 / Evaluation traces)
