1,738 repos · 11 categories · GitHub上のAI関連OSSを日本語で早見 · 毎日自動更新

SWE-Model-Arena

★ 10 ⑂ 1 更新: 2026-04-04 GitHubで見る →

概要

SWE-Model-Arenaは、ソフトウェアエンジニアリングタスク向けのツール呼び出しモデルをペアで比較評価するためのオープンソースプラットフォームです。

Opencodeという共通基盤を使用し、同一のツール、プロンプト、サンドボックス環境でモデルの性能を検証します。

主な特徴として、モデルが実際のGitリポジトリでファイル読み書きやコマンド実行を行うエージェント評価、GitHubなどからリポジトリコンテキストを自動注入するRepoChat機能、複数ラウンドの評価とGit差分比較、そしてEloやPageRankなどの豊富なリーダーボードを備えています。

開発者や研究者がモデルの品質、正確性、アプローチを評価するのに最適なツールです。

互換性・特徴

  • Python
  • Gradio
  • Web UI
  • Hugging Face Spaces

基本情報

Stars10
Forks1
カテゴリLLM
アクティビティlow

GitHub: https://github.com/Software-Engineering-Arena/SWE-Model-Arena