概要
VibeSearchBenchは、AI検索エージェントの性能を評価するための最難関ベンチマークツールです。
曖昧で多段階の検索クエリ、ペルソナ駆動の段階的な情報開示、そしてナレッジグラフに基づく厳密な評価が特徴です。
専門的な調査(文献レビュー、市場分析など)から日常生活の検索(買い物、旅行など)まで、200の多様なタスクを通じて、エージェントがユーザーの真の意図をどの程度正確に理解し、プロアクティブに情報収集できるかを測定します。
大規模言語モデル(LLM)ベースのエージェントやCLIベースの検索エージェントの開発者や研究者など、検索AIの性能向上を目指すユーザーを想定しています。
互換性・特徴
- LLM対応
- CLI
- Python
- 検索ベンチマーク
- AIエージェント評価
- ナレッジグラフ
基本情報
| ライセンス | MIT |
| Stars | 878 |
| Forks | 12 |
| カテゴリ | LLM |
| アクティビティ | mid |
