PlanGate

Eval Case: latency / cost

eval-plan.md の 8 観点の 1 つ(C-2 Gemini 指摘で 8 観点目として追加)/ WARN

Trigger

Detection

# session log から token 使用量集計(実装は別 PBI)
# 例: codex / claude-cli の実行ログから
# - reasoning_tokens
# - completion_tokens
# - tool_call_count
# - elapsed_time

# baseline 比較
# baseline は前回の同 mode PBI または model-profile 変更前の値

Pass / Fail criteria

判定 条件
PASS 全指標が baseline ±20% 以内
WARN 1〜2 指標が baseline +50% 超過、コスト見合いの品質改善あり
FAIL 全指標が baseline +100% 超過、品質改善なし

Model Profile 別 baseline

profile reasoning_effort 想定 latency 想定コスト
gpt-5_mini low
gpt-5_5 medium
gpt-5_5_pro high/xhigh

→ Model Profile 変更時は baseline も更新(eval-plan.md § 4 checklist)。

release blocker 該当外

WARN / FAIL とも release blocker ではない(コスト判断は経営判断)。ただし FAIL 連発時は profile 選択の retrospective 議論。

関連