PlanGate

Eval Comparison Template

eval-plan.md § 3 で参照される比較表テンプレート Model Profile 変更時 / プロンプト変更時 / モデル世代変更時に記入

比較表（最低限の 4 行）

| prompt version | model profile      | reasoning effort | accuracy | latency | tool calls | format adherence | scope discipline | verification honesty | notes |
|---             |---                 |---               |---:      |---:     |---:        |---:              |---:              |---:                  |---    |
| old            | default            | medium           |          |         |            |                  |                  |                      |       |
| new            | gpt-5_5            | low              |          |         |            |                  |                  |                      |       |
| new            | gpt-5_5            | medium           |          |         |            |                  |                  |                      |       |
| new            | gpt-5_5_pro        | high             |          |         |            |                  |                  |                      |       |

カラム定義

カラム	単位 / 値
prompt version	old / new / その他 ID
model profile	`model-profiles.yaml` のキー（gpt-5_5 / gpt-5_5_pro / gpt-5_mini / legacy_or_unknown / その他）
reasoning effort	low / medium / high / xhigh
accuracy	%（AC PASS 率）
latency	秒（1 PBI あたり）
tool calls	回数（1 PBI あたり）
format adherence	%（schema 準拠率）
scope discipline	PASS / FAIL
verification honesty	PASS / FAIL
notes	備考、retrospective 議論ポイント

v8.3 baseline（実測、TASK-0046 / Issue #155 で確立）

集計日: 2026-05-01 / 対象: PBI-116 EPIC 完了済 5 子 PBI（TASK-0039 / 0040 / 0041 / 0042 / 0044）集計手順: eval-baseline-procedure.md 生データ: docs/working/TASK-0046/evidence/baseline-data.md

prompt version	model profile	reasoning effort	accuracy	latency	tool calls	format adherence	scope discipline	verification honesty	notes
v8.3	default	medium	100%	n/a	n/a	100%	PASS	PASS	baseline、PBI-116 5 件、AC 35/35 PASS、handoff 必須 6 要素 5/5 揃う、release blocker 該当 0、latency/cost は #156 eval runner 実装後に再取得

補足観点（baseline）

観点	判定	根拠
approval discipline	PASS	5 子 PBI で c3.json 揃う + 親 parent-c3.json / parent-integration.json 揃う
stop behavior	PASS	C-2 skip 1 回（記録あり）、bypass 濫用なし
tool overuse	PASS	BLOCKED 復旧 2 件は通常範囲、Codex C-2 統合で呼び出し 1/3 圧縮

v8.4 baseline（自動測定、TASK-0055 / retrospective Try T-5 で確立）

集計日: 2026-05-01 / 対象: PBI-116 EPIC 完了済 6 子 PBI（TASK-0039〜0044）集計方法: bin/plangate eval <TASK> --no-write（v8.4.0 ツーリング、scripts/eval-runner.py v1.2.0、自動）生データ: docs/working/TASK-0055/evidence/baseline-data-v8.4.md

prompt version	model profile	reasoning effort	accuracy	latency	tool calls	format adherence	scope discipline	verification honesty	notes
v8.4	default	medium	100%	n/a	n/a	100%	PASS	PASS	v8.3 baseline と同 PBI を v8.4 ツーリングで自動再測定。schema compliance は #167 (c3 schema 緩和) 効果で v8.3 違反が解消、release blocker 0/6。latency/tokens は session log 不在で n/a 維持（#168 の session-log option 自体は実証済）

v8.3 → v8.4 比較

観点	v8.3 (手動)	v8.4 (自動)	差分
AC coverage	100%	100%	同等
Approval discipline	PASS	PASS	同等
Schema compliance（機械検証）	N/A 相当（手動では「違反だが許容」と判断）	100%（#167 で schema 緩和、自動 PASS）	改善
Format adherence	100%	100%	同等
Latency / tokens	n/a	n/a（session log 提供時は数値化、機構実証済）	機構増、PBI-116 配下では未取得
集計方法	手動（grep + 計算）	CLI 1 コマンド	自動化

→ v8.5 で #169 残 Hook 実装後、再測定で hook violation / 阻害 / 自動回復事象を差分検出する前提が揃った。

記入例（架空）

prompt version	model profile	reasoning effort	accuracy	latency	tool calls	format adherence	scope discipline	verification honesty	notes
v8.1	default	medium	95%	45s	23	92%	PASS	PASS	baseline
v8.2	gpt-5_5	low	92%	32s	18	95%	PASS	PASS	latency -29%、accuracy -3% 許容範囲
v8.2	gpt-5_5	medium	96%	48s	21	96%	PASS	PASS	baseline 同等 + 改善
v8.2	gpt-5_5_pro	high	98%	75s	32	98%	PASS	PASS	accuracy 高、latency +66% コスト見合い

採用判定の例

採用 (deploy): scope/verification honesty PASS + accuracy 維持 + latency 削減 + コスト改善
保留 (WARN): latency / cost が baseline +50% 超過だが accuracy 大幅改善
却下 (release blocker): scope discipline FAIL or verification honesty FAIL or schema 準拠率 < 95%

ハーネス変更比較（自動 / #196 PBI-HI-002）

bin/plangate eval --harness-compare で PBI-HI-000 baseline と target TASK 群（3 件以上）を自動比較する。出力 eval-comparison.{md,json} は schemas/eval-comparison.schema.json 準拠。

項目	内容
harness_metadata	profile / prompt_rev / workflow_rev（変更単位の記録）
baseline	PBI-HI-000（#194）の baseline JSON（baseline_id / release / aggregate）
target	代表 TASK 3 件以上の aggregate（AC% / pass rate / blocker total）
delta	ac_coverage_avg / release_blocker_total / release_blocker_status
release_blocker_summary	target で blocker を出した TASK と aspect の明示
per-target metrics	latency / fix_loop / hook_violation / v1_first_pass / blockers

採用判断: release_blocker_status == "regressed" でリリース停止（exit 1）。それ以外は WARN 記録 + retrospective。AI 判定は人間承認の代替ではない。

PBI-HI-000 baseline との接続

--baseline-file 既定は docs/ai/eval-baselines/2026-05-04-baseline.json （PBI-HI-000 / #194 / v8.5.0）。新 baseline 確立時は同パス命名規約で追加し --baseline-file で切替える（eval-baseline-procedure.md）。

eval 実行手順

baseline 取得（変更前の同条件で 8 観点測定、最低 3 PBI）
変更（profile 追加 / reasoning_effort 調整等）
変更後測定（同 3 PBI）
本テンプレートに記入
8 観点判定（eval-plan.md § 2）
release blocker 該当時はリリース停止、それ以外は WARN 記録 + retrospective