概要
Workspace-Benchは、大規模なファイル依存関係を持つワークスペースタスクにおいてAIエージェントの能力を評価するためのベンチマークツールです。
現実のワークスペースで、AIエージェントが多様なファイル間の明示的・暗黙的な依存関係を特定し、推論し、利用し、更新する能力、すなわち「ワークスペース学習」を研究するために構築されました。
単一ファイルや限定的なプロンプトに基づく評価とは異なり、エージェントが独立してディレクトリを探索し、関連する証拠を見つけ、ファイル間の関係を理解し、成果物を生成する、より現実的なシナリオでの評価を提供します。
AIエージェント開発者や研究者、その性能評価に関心のあるユーザーが主な想定利用者です。
互換性・特徴
- AIエージェント評価
- 大規模ファイル依存
- 研究ツール
- Hugging Face連携
- Python
基本情報
| ライセンス | MIT |
| Stars | 13 |
| Forks | 2 |
| カテゴリ | AIエージェント |
| アクティビティ | low |
