概要
K-MetBenchは、気象学分野におけるAIモデルの専門家推論、局所性、およびマルチモダリティを詳細に評価するための多次元ベンチマークです。
韓国国立気象技師試験から抽出された1,774問の質問(マルチモーダル、専門家検証済みの推論、韓国語固有の質問を含む)を基に、AIモデルのパフォーマンスを客観的に測定します。
本リポジトリはデータキュレーション、内部実験、公開サマリーの構築、レビュー済み成果物のエクスポートに利用され、PythonとCLIを通じて評価を実行します。
気象学に特化したAIモデルの研究者や開発者、およびAIモデルの細粒度な評価を行いたいユーザーに適しています。
互換性・特徴
- Python
- CLI
- GPU必須
- 韓国語データセット
- ベンチマーク
基本情報
| ライセンス | MIT |
| Stars | 2 |
| カテゴリ | マルチモーダル |
| アクティビティ | low |