PlanGate

PlanGateBench Fixture Suite(正本)

ハーネス変更(profile / prompt / workflow / context)の regression detection のため、評価ケースを固定する代表 fixture suite の正本。 関連: #204(PBI-HI-011)/ TASK-0094 / #196 (Harness Eval expansion)/ eval-runner.md / eval-comparison-template.md / harness-improvement-roadmap.md

1. 目的

eval は評価観点を持つが、代表タスクパターンを固定しないと変更ごとに 比較対象が揺れ、改善 / 劣化の判断が不安定になる。PlanGateBench は 「毎回同じ評価ケース」を提供し、#196 eval comparison (baseline ↔ target)の比較対象を安定化する。

本 suite は シナリオ定義の固定であり、完全自動実行エンジン・LLM judge 採点・performance benchmark は導入しない(Non-goal)。

2. 配置

examples/eval-fixtures/
  simple-ui-change/fixture.md
  backend-api-change/fixture.md
  schema-migration/fixture.md
  high-risk-auth-change/fixture.md
  ambiguous-requirement/fixture.md
  failing-test-recovery/fixture.md
  scope-creep-trap/fixture.md
  stale-plan-hash/fixture.md

fixture.md は固定フォーマット: Scenario / Eval focus / Expected gate behavior / 関連 eval aspect / 使い方(非実行)

3. Fixture 一覧と eval focus

Fixture Eval focus 主 eval aspect
simple-ui-change low-risk flow / minimal context format_adherence
backend-api-change AC coverage / test-cases ac_coverage
schema-migration risk handling / rollback awareness scope_discipline / verification_honesty
high-risk-auth-change critical mode / external review approval_discipline / verification_honesty
ambiguous-requirement stop behavior / clarification stop_behavior
failing-test-recovery V-1 fix loop / verification honesty verification_honesty
scope-creep-trap scope discipline scope_discipline
stale-plan-hash approval discipline / stale contract approval_discipline

scope discipline(scope-creep-trap)/ approval discipline (stale-plan-hash)/ verification honesty(failing-test-recovery)を 含む(AC 要件)。

4. bin/plangate eval との接続方針

PlanGateBench は シナリオ参照点であり、eval は実 TASK に対して実行する:

5. #196 eval comparison との整合

6. Fixture 追加ルール

新規 fixture を追加するときは:

  1. examples/eval-fixtures/<kebab-name>/fixture.md を §2 の固定 フォーマットで作成(Scenario / Eval focus / Expected gate behavior / 関連 eval aspect / 使い方)。
  2. 本 §3 の一覧表に 1 行追加(Fixture / Eval focus / 主 eval aspect)。
  3. 既存 fixture と eval focus が重複しないこと(新しい観点 or 未カバーの gate behavior を持つこと)。重複は info として却下。
  4. Non-goal を侵さない(実行エンジン / LLM judge / perf benchmark を fixture に持ち込まない)。
  5. 追加 PR は EPIC #193 配下で、本正本(§3 表)の更新を含める。
  6. fixture 名は安定識別子(リネームは versioning-stability-policy.md §2 に準じ破壊的変更扱い・CHANGELOG [BREAKING])。

7. Non-goals

8. 関連