概要
whatifdは、LLM(大規模言語モデル)システムにおけるプロンプト、モデル、ツールの変更がもたらす影響を客観的に評価するための実験ランナーです。
直感ではなくデータに基づいた検証を可能にし、変更によって予期せぬ機能退行(サイレントな回帰)が発生するのを防ぎます。
本番環境のトレースをフォークし、提案された変更を適用してリプレイし、選択した評価基準でスコアを付け、詳細なMarkdownおよびJSON形式の評価レポートを生成します。
このレポートは、プルリクエストに添付することで、変更の妥当性を客観的に議論し、どの部分が改善され、どの部分が回帰したかを明確にします。
Python 3.11+で動作し、Langfuse、Inspect AI、Arize PhoenixといったLLM開発・評価ツールと連携し、GitHub Actionsとの統合も可能です。
主にLLM開発者やMLOpsエンジニアが、信頼性の高いLLMシステムのデプロイメントを実現するために設計されています。
互換性・特徴
- Python
- CLI
- GitHub Actions
- LLM開発
- Langfuse
- Inspect AI
基本情報
| ライセンス | Apache-2.0 |
| Stars | 3 |
| Forks | 1 |
| カテゴリ | LLM |
| アクティビティ | low |
最新リリース: v0.3.0 (2026-06-04)
