概要
FeatureBenchは、複雑な機能開発におけるエージェント型コーディングのベンチマーキングを目的とした、テスト駆動型データ生成および評価パイプラインです。
統一されたCLIを通じて、推論、評価、データセット生成を実行できます。
OpenHandsやGemini CLIなど、主要なエージェントフレームワークのワンクリック推論をサポートし、AIモデルの客観的な性能測定を可能にします。
Dockerによる再現性の高い評価環境と、lite/fast/fullといった柔軟な評価スプリットが特徴です。
AIモデル開発者や研究者、エージェント型プログラミングの評価に関心のあるユーザーに最適です。
互換性・特徴
- CLI
- Python
- Docker
- エージェントフレームワーク対応
- Web UI
- GPU対応
基本情報
| ライセンス | MIT |
| Stars | 76 |
| Forks | 8 |
| カテゴリ | LLM |
| アクティビティ | low |
最新リリース: 0.2.1 (2026-06-06)
