3,702 repos GH 3,587 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

delegate52

★ 113 ⑂ 11 MIT 更新: 2026-06-12 GitHubで見る →

概要

DELEGATE-52は、大規模言語モデル(LLM)が様々な専門ドメインの文書編集タスクを長期にわたって委任された際の性能を評価するためのベンチマークツールです。

結晶学、楽譜、Pythonコードなど52の異なるドメインを対象に、LLMが文書を編集し、その後元の状態に復元する「往復編集」の連鎖シミュレーションを実行します。

特徴として、`run_relay.py`で複数のLLMとのインタラクションをシミュレートでき、OpenAIやAzure OpenAIのLLMに対応したラッパーや、ファイルの操作やPythonコードの実行が可能なエージェントハーネスも提供します。

想定ユーザーは、LLMの文書処理能力や長期的な委任タスクにおける信頼性を研究・評価したい開発者や研究者です。

Hugging Faceで提供されるデータセットを使用し、APIキーを設定するだけで簡単に実行できます。

互換性・特徴

  • Python
  • CLI
  • Hugging Face
  • OpenAI API
  • Azure OpenAI API
  • LLM評価

基本情報

ライセンスMIT
Stars113
Forks11
カテゴリLLM
アクティビティmid

最新のissue

GitHub: https://github.com/microsoft/delegate52