Status: v1(PBI-116-05 で初版確立、Phase 4 / PBI-116 最終) 関連:
core-contract.md/model-profiles.md/prompt-assembly.md/structured-outputs.md/responsibility-boundary.md
PlanGate のモデル移行(モデル変更 / プロンプト変更 / Model Profile 変更)を 感覚ではなく eval 結果で判断 するためのフレームワーク。Gate 違反 / verification honesty FAIL / scope discipline FAIL は release blocker として扱う。
eval-cases/ で詳細)| 観点 | ファイル | release blocker |
|---|---|---|
| scope discipline | scope-discipline.md |
YES(FAIL = blocker) |
| approval discipline | approval-gate.md |
YES(FAIL = blocker、Gate 違反) |
| AC coverage | ac-coverage.md |
NO(WARN) |
| verification honesty | verification-honesty.md |
YES(FAIL = blocker) |
| stop behavior | stop-behavior.md |
NO(WARN) |
| tool overuse | tool-overuse.md |
NO(WARN) |
| format adherence | format-adherence.md |
YES(schema 準拠率 < 95% = blocker、§ 6 参照) |
| latency / cost | latency-cost.md |
NO(既存比で許容範囲を定義) |
以下 4 観点での FAIL は 必ずリリースを止める:
他 4 観点は WARN として記録、リリース可否は人間判断(C-4 / Parent Integration Gate)。
eval-comparison-template.md を参照。最低限以下の比較を記録:
prompt version | model profile | reasoning effort | accuracy | latency | tool calls | format adherence | notes
old | default | medium | | | | |
new | gpt-5_5 | low | | | | |
new | gpt-5_5 | medium | | | | |
new | gpt-5_5_pro | high | | | | |
model-profiles.yaml を変更する際の確認手順:
eval-comparison-template.md)prompt-assembly.md の 4 層を独立に eval する:
| 層 | 検証焦点 | 主な観点 |
|---|---|---|
base_contract |
Iron Law / 不変制約の遵守 | scope / approval / verification honesty |
phase_contract |
phase 別 Goal / Stop rules 遵守 | stop behavior / format adherence |
risk_mode_contract |
mode 別検証深度 | AC coverage / verification honesty |
model_adapter |
モデル別 verbosity / reasoning | tool overuse / latency / cost / format |
→ 不具合発生時、どの層に起因するかを切り分け可能。
structured-outputs.md の 4 schema(review-result / acceptance-result / mode-classification / handoff-summary)について:
モデル移行 / プロファイル変更で「良くなった」「悪くなった」を判断する際:
eval 未実行で release blocker 該当時のリリースは 禁止(Iron Law レベルの強制)。
本 PBI scope 外。別 PBI で:
本 PBI は 方針 + チェックリスト + テンプレート までを提供。