1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

Workspace-Bench

★ 13 ⑂ 2 MIT 更新: 2026-05-19 GitHubで見る →

概要

Workspace-Benchは、大規模なファイル依存関係を持つワークスペースタスクにおいてAIエージェントの能力を評価するためのベンチマークツールです。

現実のワークスペースで、AIエージェントが多様なファイル間の明示的・暗黙的な依存関係を特定し、推論し、利用し、更新する能力、すなわち「ワークスペース学習」を研究するために構築されました。

単一ファイルや限定的なプロンプトに基づく評価とは異なり、エージェントが独立してディレクトリを探索し、関連する証拠を見つけ、ファイル間の関係を理解し、成果物を生成する、より現実的なシナリオでの評価を提供します。

AIエージェント開発者や研究者、その性能評価に関心のあるユーザーが主な想定利用者です。

互換性・特徴

  • AIエージェント評価
  • 大規模ファイル依存
  • 研究ツール
  • Hugging Face連携
  • Python

基本情報

ライセンスMIT
Stars13
Forks2
カテゴリAIエージェント
アクティビティlow

GitHub: https://github.com/OpenDataBox/Workspace-Bench