3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

delegate52

★ 113 ⑂ 11 MIT 更新: 2026-06-12 GitHubで見る →

#Azure OpenAI API #CLI #Hugging Face #LLM評価 #OpenAI API #Python

概要

DELEGATE-52は、大規模言語モデル（LLM）が様々な専門ドメインの文書編集タスクを長期にわたって委任された際の性能を評価するためのベンチマークツールです。

結晶学、楽譜、Pythonコードなど52の異なるドメインを対象に、LLMが文書を編集し、その後元の状態に復元する「往復編集」の連鎖シミュレーションを実行します。

特徴として、`run_relay.py`で複数のLLMとのインタラクションをシミュレートでき、OpenAIやAzure OpenAIのLLMに対応したラッパーや、ファイルの操作やPythonコードの実行が可能なエージェントハーネスも提供します。

想定ユーザーは、LLMの文書処理能力や長期的な委任タスクにおける信頼性を研究・評価したい開発者や研究者です。

Hugging Faceで提供されるデータセットを使用し、APIキーを設定するだけで簡単に実行できます。

互換性・特徴

Python
CLI
Hugging Face
OpenAI API
Azure OpenAI API
LLM評価

基本情報

ライセンス	MIT
Stars	113
Forks	11
カテゴリ	LLM
アクティビティ	mid

最新のissue

モデル推論設定に関する質問 (更新: 2026-05-26 / Question about model reasoning settings)
画像ドメインの対応 (更新: 2026-05-18 / Image domain)
評価トレースの実装 (更新: 2026-05-12 / Evaluation traces)

GitHub: https://github.com/microsoft/delegate52

← 全リポジトリ一覧へ