3,617 repos GH 3,502 / HF 115 · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

agent-evaluation-lab

★ 1 Apache-2.0 更新: 2026-03-15 GitHubで見る →

#CLI #Python #エージェント評価 #サンドボックス #シナリオベース #シミュレーション

概要

Agent Evaluation Labは、自律エージェントをデプロイ前にテスト・評価するためのオープンなサンドボックス環境です。

動的に推論し、ツールと相互作用し、オープンエンドな環境で自律的に意思決定を行うエージェントの検証を目的としています。

開発者は、事前に定義されたシナリオに対してエージェントを実行し、そのパフォーマンスを自動的に評価できます。

これにより、エージェントが実稼働環境で信頼性高く機能することを検証するための、制御されたシミュレーション環境を提供します。

想定ユーザーは、AIエージェントの開発者や、エージェントをシステムに組み込むことを検討しているエンジニアです。

互換性・特徴

Python
CLI
サンドボックス
エージェント評価
シナリオベース
シミュレーション

基本情報

ライセンス	Apache-2.0
Stars	1
カテゴリ	LLM
アクティビティ	low

最新のissue

エージェントのベンチマーク実施に向けたシナリオライブラリの追加 (更新: 2026-03-16 / Add scenario library for agent benchmarking)
エージェント評価のための、より充実した評価指標を実装する (更新: 2026-03-15 / Implement richer evaluation metrics)
エージェントと環境間のインターフェース仕様を明確に定義 (更新: 2026-03-15 / Define environment interface specification)

GitHub: https://github.com/joshualamerton/agent-evaluation-lab

← 全リポジトリ一覧へ