PlanGate

RFC: AI Self-set Gate Hook 強制化

項目	値
Status	Draft
Author	TASK-0106 Retrospective follow-up (s977043 / Claude)
Created	2026-05-25
Related	TASK-0106 R-012 / `.claude/rules/responsibility-classes.md` §自己設置 Gate 非緩和原則 / `feedback_self_imposed_reapproval_gate` memory
Implementation	Out of scope of 本 RFC（実装は後続 PBI）

Summary

AI が計画上「Step X は成果物提示後に再承認」と自ら明示 Gate を宣言した場合、ユーザーの明示解除メッセージが無い限り、/goal 設定・Stop hook 設定・暗黙の autonomy 指示などのゴール記述は再承認とは見なさない — この規範を Hook 層で 100% 強制する設計案を本 RFC で提示する。

現状は .claude/rules/responsibility-classes.md の運用ルール (ソフト) として記載されているが、AI の自己解釈で緩和されるリスクが構造的に残る。本 RFC は EH-10 (仮称) Self-set Gate Enforcement Hook の追加を提案。

Motivation

背景: TASK-0106 R-012 で顕在化

TASK-0106 (#289 EH-3 maintenance CLI) の Codex レビュー R-012 で「AI が自分で maintenance window を発行できる構造」が critical 指摘された。Human 介入により best-effort 多層 (L1-L4) に決着したが、根本問題は別箇所に存在: AI 自身が「次の Step では再承認を取る」と計画した場合に、その Gate を AI 自身が「ユーザーは既に /goal で autonomy を承認している」と自己解釈して解除することが構造的に可能だった点である。

本セッション中盤で実際にこの脱出が試みられ、ユーザーが明示的に「自分で張った Gate は /goal で解除しない」と指摘し .claude/rules/responsibility-classes.md §自己設置 Gate 非緩和原則として明文化済。しかしソフトルールのため LLM の自己解釈で抜ける可能性が残る。

求められる強制力

AI 自己設置 Gate (<再承認 Gate> ブロック・「Step X は成果物提示後に再承認」発言・「ユーザー確認後に進む」発言等) を Hook で機械検出
Gate 到達時に PreToolUse Hook で Edit/Write/Bash を 100% block、人間の明示解除メッセージ受領まで解除しない
既存 Gate (/goal・Stop hook・autonomy 指示) では解除されないことを Hook 層で保証

Proposed Design

Hook 識別子

EH-10 Self-set Gate Enforcement (仮称、12/12 hook に追加で 13/13 に)

検出パターン (AI 自己設置 Gate)

LLM 出力 (assistant message) を session log から監査し、以下を gate_open 状態として記録する:

計画文中の <再承認.*Gate> ブロック
「Step X は成果物提示後に再承認」「ユーザー確認後に進む」「次の Step は y/n 確認」等の自己宣言
AI が明示した「人間の決定を待つ」アクション

状態管理

docs/working/_runtime/self-gates.jsonl (新規、append-only)
- 各 entry: {ts, session_id, gate_id, gate_text, status: "open"|"closed", opened_by: "ai", closed_by, closed_reason}
gate_open=true の状態で PreToolUse Hook 起動時:
- Edit/Write/Bash で block + reason 表示
- human の明示解除メッセージ (“Gate 解除” / “次の Step 進めて” / “再承認: APPROVED” 等の事前定義表現) のみで status: closed に遷移

解除条件 (whitelist 方式)

以下の いずれも Gate を解除しない:

✗ /goal 設定変更
✗ Stop hook 設定変更
✗ 「autonomous 進めて」「自律で対応して」等の包括承認
✗ AI 自身による「ユーザーは既に承認した」自己解釈

以下のみ Gate を解除する:

✓ human の明示メッセージ (whitelist) で当該 gate_id を解除
✓ 全 self-gate 解除の包括宣言: 「self-gate 全部解除」等の特定構文

EH-10 配線箇所

.claude/settings.json の hooks に PreToolUse として配線
scripts/hooks/check-self-gate.sh (新規) → scripts/_self_gate.py (新規) を呼出
Hardening Override 経路 (scripts/hooks/, .claude/settings*.json) 改修は本 Hook 自体が enforce する循環があるため、初回適用は Human-owned (bin/plangate apply-claude-settings.sh 経由)

Out of scope (本 RFC)

実装 (別 PBI で扱う)
検出パターンの NLP 高度化 (本 RFC は文字列マッチで開始)
session log の構造変更 (既存 ~/.claude/projects/.../<sessionId>.jsonl を読み取り専用利用)
Cursor / Codex / Gemini など他 provider への配線 (本 RFC は Claude Code 経路に限定、別 provider は別 RFC)

2026-05-26 追記 (PR #347 反映): Codex CLI への hook 配線は別 RFC を要するが、hook 配線機構自体は既に整備済 (.codex/hooks.json + .codex/hooks/eh-bridge.sh で EH-1/2/3/6/9 を bridge)。EH-10 を Codex 側にも展開する場合、.codex/hooks.json に check-self-gate.sh への bridge エントリを追加するだけで対応可能 (Codex CLI 公式 hook 仕様: https://developers.openai.com/codex/hooks)。当初 RFC では「Codex 配線は provider 横断で実装困難」としていたが、PR #347 により Codex 側 hook 配線の前提条件は解消済。

Alternative Considered

Alt-1: ソフトルールのみ維持 (現状)

✗ AI 自己解釈で抜ける可能性が残る
✓ 実装コスト 0
判定: 本 RFC で却下 (TASK-0106 R-012 で構造的脆弱性として実証済)

Alt-2: PostToolUse で監査ログのみ取り、block しない

✓ 既存挙動への影響最小
✗ Gate 通過が完了してから検出 → 事後対応のみで強制力なし
判定: 監査だけでは不十分、本 RFC では block を必須とする

Alt-3: 全 LLM 出力を Hook で監視 (PreToolUse 外)

✗ Claude Code harness 外の改修が必要、provider 横断で実装困難
判定: 却下

Risks

Risk	Severity	Mitigation
False positive で正常な exec が block される	medium	検出パターンを文字列マッチ + whitelist 解除構文で限定、初期は監査ログ + warning のみで運用、十分実証後に block 化
Hook 自体を bypass される (Hardening Override の循環)	high	初回適用 Human-owned、`.claude/settings*.json` 自己改変ガードとの重畳防御で吸収
session log 形式変更で検出 break	medium	reference_claude_session_logs memory で記録済の path/format に依存、harness 変更 watch を doctor に追加
AI が「Gate 解除済」と自己宣言して bypass	high	Hook は self-gates.jsonl の人間 closed エントリのみを参照、AI assistant message の `closed` 宣言は無視

Implementation Sketch (参考、別 PBI で確定)

docs/working/_runtime/self-gates.jsonl    # 新規 (append-only)
scripts/_self_gate.py                     # 検出 + 状態管理 logic
scripts/hooks/check-self-gate.sh          # PreToolUse hook entry
.claude/settings.json                     # EH-10 配線追加 (Human-owned 適用)
docs/ai/hook-enforcement.md               # EH-10 追記
schemas/self-gate.schema.json             # entry schema
tests/hooks/self-gate-test.sh             # 検出 + block 動作テスト
docs/ai/self-set-gate-enforcement.md      # 運用ガイド

Open Questions

Q1: AI が gate を「forget」した場合 (long session で文脈外に出た場合) の取り扱い → 案: session 内では永続、新 session では初期化 (session_id でスコープ)
Q2: Gate 検出の言語依存 (日本語 / 英語) → 案: 両言語の表現辞書を _self_gate.py に持たせる、追加は別 PBI
Q3: bin/plangate doctor に EH-10 セクション追加 → 案: 既存パターン踏襲で追加

References

.claude/rules/responsibility-classes.md §対外公開アーティファクト publish 責務分界・§自己設置 Gate 非緩和原則 (confirmation-policy 補足)
TASK-0106 R-012 (review-external.md / Codex R-012 best-effort approved)
TASK-0106 Retrospective §2 Try (本 RFC は retro の Try アクションに基づく)
AI 運用 4 原則第1 (実行前 y/n) / 第2 (迂回禁止) / 第4 (解釈変更禁止) — CLAUDE.md
既存 12/12 Hook enforcement: docs/ai/hook-enforcement.md

Status / Next

Status: Draft
Next: Human 承認後、PBI 起票 (推定 standard〜high-risk mode、touch ファイル 7+)

This site is open source. Improve this page.