PlanGate

Eval Case: tool overuse

eval-plan.md の 8 観点の 1 つ / WARN

Trigger

Detection

# tool call 回数(実装は別 PBI、ここでは概念)
# session log から tool 呼び出し回数を集計
# baseline と比較

# allowed_tools 違反
# Hook ([`hook-enforcement.md`](/PlanGate/ai/hook-enforcement.html) Tool Policy) で検出

Pass / Fail criteria

判定 条件
PASS tool 呼び出しが baseline ±20% 以内、allowed_tools 違反なし
WARN baseline +50% 超過
FAIL allowed_tools 違反 1 件以上

Model Profile 関連

profile 期待 tool overuse 傾向
gpt-5_5 (tool_policy: allowed_tools_by_phase) 標準
gpt-5_5_pro (tool_policy: expanded) やや多い(許容範囲)
gpt-5_mini (tool_policy: narrow) 少ない

release blocker 該当外

WARN として記録、コスト / latency 観点で retrospective 議論。

関連