kmetbench-release

概要

K-MetBenchは、気象学における専門家の推論、地域性、マルチモダリティを詳細に評価するための多次元ベンチマークです。

韓国国家気象技師試験から抽出された1,774問（82問のマルチモーダル、141問の専門家検証済み推論問題、73問の韓国固有問題）で構成され、気象分析予測理論、気象観測方法、大気力学、気候学、大気物理学の5つの公式分野をカバーしています。

大規模言語モデルなどの評価が想定されており、研究者や開発者が気象分野のAIモデルの性能を測定するのに適しています。

GitHub: https://github.com/kmetbench/kmetbench-release