概要
SWE-Model-Arenaは、ソフトウェアエンジニアリングタスク向けのツール呼び出しモデルをペアで比較評価するためのオープンソースプラットフォームです。
Opencodeという共通基盤を使用し、同一のツール、プロンプト、サンドボックス環境でモデルの性能を検証します。
主な特徴として、モデルが実際のGitリポジトリでファイル読み書きやコマンド実行を行うエージェント評価、GitHubなどからリポジトリコンテキストを自動注入するRepoChat機能、複数ラウンドの評価とGit差分比較、そしてEloやPageRankなどの豊富なリーダーボードを備えています。
開発者や研究者がモデルの品質、正確性、アプローチを評価するのに最適なツールです。
互換性・特徴
- Python
- Gradio
- Web UI
- Hugging Face Spaces
基本情報
| Stars | 10 |
| Forks | 1 |
| カテゴリ | LLM |
| アクティビティ | low |
GitHub: https://github.com/Software-Engineering-Arena/SWE-Model-Arena