FeatureBench

概要

FeatureBenchは、複雑な機能開発におけるエージェント型コーディングのベンチマーキングを目的とした、テスト駆動型データ生成および評価パイプラインです。

統一されたCLIを通じて、推論、評価、データセット生成を実行できます。

OpenHandsやGemini CLIなど、主要なエージェントフレームワークのワンクリック推論をサポートし、AIモデルの客観的な性能測定を可能にします。

Dockerによる再現性の高い評価環境と、lite/fast/fullといった柔軟な評価スプリットが特徴です。

AIモデル開発者や研究者、エージェント型プログラミングの評価に関心のあるユーザーに最適です。

最新リリース: 0.2.1 (2026-06-06)

GitHub: https://github.com/LiberCoders/FeatureBench