OneEval

概要

OneEvalは、オープンな大規模言語モデル（LLM）の評価結果における監査の難しさや再現性の低さという課題を解決するために設計されたツールです。

評価プロトコル、実行コード、詳細な結果データといった検証可能なアーティファクトを提供し、ベンチマークの集計値だけでなく、サブセットレベルの挙動やpass @k曲線のような多角的な分析を可能にします。

本リポジトリはモデルのランキングを目的とせず、評価プロセスの透明性と再現性向上に焦点を当てています。

ウェブサイトを通じてKnowledge、Agentic、Instruction Following、Reasoningの各トラックでベンチマーク結果を整理・可視化し、詳細な分析を促進します。

想定ユーザーは、LLMの評価の信頼性、再現性、詳細な内訳を求める研究者や開発者です。

GitHub: https://github.com/XChen-Zero/OneEval