概要
OpenCompassは、大規模言語モデル(LLM)の評価を効率的かつ正確に行うための包括的なプラットフォームです。
強力なアルゴリズムと直感的なインターフェースを提供し、NLPモデルの品質と有効性を評価するプロセスを支援します。
Intern-S1-Pro、SciReasoner、Intern-S1といった様々な最新のLLMに対応しており、CascadeEvaluatorのような柔軟な評価メカニズムにより、複雑な評価シナリオにも対応できます。
主にLLMの研究者や開発者を対象としており、モデルの性能比較やベンチマーク測定を容易にします。
WebサイトやCompassHubを通じて評価結果の可視化も可能です。
互換性・特徴
- Python
- LLM評価ツール
- CLI
- Web UI
- GPU必須
基本情報
| ライセンス | Apache-2.0 |
| Stars | 7,098 |
| Forks | 791 |
| カテゴリ | LLM |
| アクティビティ | high |
最新のissue
- [機能] OpenCompassの「推論健全性」評価指標としてThinkCheckを統合 (更新: 2026-06-08 / [Feature] 集成 ThinkCheck 作为 OpenCompass 的“推理健康度”评估维度)
最新リリース: 0.5.2 (2026-02-14)
