whatifd

概要

whatifdは、LLM（大規模言語モデル）システムにおけるプロンプト、モデル、ツールの変更がもたらす影響を客観的に評価するための実験ランナーです。

直感ではなくデータに基づいた検証を可能にし、変更によって予期せぬ機能退行（サイレントな回帰）が発生するのを防ぎます。

本番環境のトレースをフォークし、提案された変更を適用してリプレイし、選択した評価基準でスコアを付け、詳細なMarkdownおよびJSON形式の評価レポートを生成します。

このレポートは、プルリクエストに添付することで、変更の妥当性を客観的に議論し、どの部分が改善され、どの部分が回帰したかを明確にします。

Python 3.11+で動作し、Langfuse、Inspect AI、Arize PhoenixといったLLM開発・評価ツールと連携し、GitHub Actionsとの統合も可能です。

主にLLM開発者やMLOpsエンジニアが、信頼性の高いLLMシステムのデプロイメントを実現するために設計されています。

最新リリース: v0.3.0 (2026-06-04)

GitHub: https://github.com/victoralfred/whatifd