v7 ハイブリッドアーキテクチャ: 本書の方向性を踏まえ、実行層を Workflow / Skill / Agent 3 層で再構築したのが v7。詳細は docs/plangate-v7-hybrid.md 参照。v6 は本書のロードマップとして維持される。
PlanGateはスクラムのDone定義の中で「AIにコードを書かせるフェーズ」を安全に回す仕組みである。
以下はスクラムの責務であり、PlanGateのスコープ外とする:
PlanGateが担うのは、C-3承認後のexecフェーズ内部と、それを囲むAI制御の仕組みである。
| 要素 | 理由 |
|---|---|
| リポジトリ=唯一の真実の源泉(C4) | PBI情報管理はNotionとスクラムイベントで担保済 |
| ADRによるハーネス変更追跡(O5) | フレームワーク変更の意思決定はレトロスペクティブの範囲 |
| スループット・人間負荷のメトリクス(O7の一部) | スクラムチームのベロシティ計測の範囲 |
| エージェント検証可能アプリケーション(F6) | Done条件の検証はPO/チームの責務。UI E2EはCI/CDの問題 |
| 優先度 | 要素 | 概要 | 期待効果 |
|---|---|---|---|
| P1 | 決定論的フック(A3) | Claude Code HooksでIron Lawを100%強制 | CLAUDE.md遵守率~70% → 100% |
| P2 | ガベージコレクション(O1) | 定期的バックグラウンド品質スキャン+自動リファクタリングPR | AI生成コードの経年劣化防止 |
| P3 | 段階的ルール昇格(F2) | Iron Lawの強制レベルをデータ駆動で進化 | ルールの持続的改善サイクル確立 |
| P4 | 推論サンドイッチ(A7) | plan/V系=高推論、exec=標準 | コスト最適化+タイムアウト回避 |
| P5 | ファセットプロンプティング(C7) | workflow-conductorのプロンプトを関心事分離 | ルール変更時の影響範囲最小化 |
| 要素 | 論点 |
|---|---|
| 漸進的コンテキスト開示 / Skills(C3) | CLAUDE.mdの設計問題だがチームの開発基盤に影響 |
| サブエージェント(A6) | マルチエージェント構成はチーム全体のアーキテクチャ判断 |
| トレース分析(F5) | レトロでの改善材料として使うならスクラム側 |
| TAKT YAML宣言型エンジン(A4) | 3コマンドシステムの代替となる可能性。チーム合意が必要 |
CLAUDE.mdの指示遵守率は約70%。Iron Lawが破られる可能性が30%存在する。AnthropicのHooksは13種のライフサイクルイベントに紐づくシェルスクリプトで、100%強制される。
| Iron Law | Hook種別 | 実装例 |
|---|---|---|
| NO EXECUTION WITHOUT REVIEWED PLAN | PreToolUse | execコマンド実行前にreview-self.mdの存在を検証。なければexit 1でブロック |
| NO SCOPE CHANGE WITHOUT USER APPROVAL | PreToolUse | plan.mdのIn Scope外のファイルへの編集を検出・ブロック |
| NO MERGE WITHOUT TWO-STAGE REVIEW | Stop | PR作成前にV-3完了ログの存在を検証。未完了ならexit 2で続行強制 |
| NO COMPLETION CLAIMS WITHOUT EVIDENCE | Stop | status.mdにテスト全パス証拠がなければexit 2 |
.claude/settings.jsonにhooksセクションを追加OpenAIが実践。定期的にバックグラウンドタスクを実行し、AIが書いたコードの経年劣化を検知・修復する。
GMOの4段階エスカレーションラダー(L1ドキュメント → L2 AIセマンティック → L3 CI → L4構造テスト)をPlanGate用に適応させる。
| GMOのレイヤー | PlanGateでの対応 | 現状 |
|---|---|---|
| L1ドキュメント | CLAUDE.mdのIron Law | 対応済 |
| L2 AIセマンティック | C-1/C-2+V-3 | 対応済 |
| L3 CI | L-0(v5)+exec(TDD) | v5で対応 |
| L4構造テスト | V-4(詳細未定義) | v6でV-4に組み込む |
LangChainの実証。計画フェーズ=xhigh、実装フェーズ=high、検証フェーズ=xhighという推論計算量の戦略的配分。全工程xhighよりスコアが高かった。
| フェーズ | 推論レベル | 理由 |
|---|---|---|
| plan(B) | 高 | 計画の質が全体を左右 |
| C-1/C-2 | 高 | レビューの見落とし防止 |
| exec(D) | 標準 | タイムアウト回避+コスト最適化 |
| V-1〜V-4 | 高 | 検証精度の最大化 |
成瀬允宣(TAKT作者)の提唱。プロンプトを5つの直交する関心事(Persona/Policy/Instruction/Knowledge/Output Contract)に分解。ルール変更時にPolicyだけ修正すれば全役割に自動反映されるDRYな設計。
| フェーズ | 内容 | 前提 | 目安 |
|---|---|---|---|
| Phase 1 | P1: 決定論的フック導入(1ルールからパイロット) | v5トライアル完了 | 1-2週間 |
| Phase 2 | P1: 全Iron Lawへのフック拡大 | Phase 1の誤検知率確認 | 1週間 |
| Phase 3 | P2: ガベージコレクション(GitHub Actions定期実行) | P1完了(検査ルールが確立) | 2-3週間 |
| Phase 4 | P3: 段階的ルール昇格の仕組み構築 | P2完了(違反データの蓄積) | 2-3週間 |
| Phase 5 | P4: 推論サンドイッチ実験 | 並行実施可 | 1週間 |
| Phase 6 | P5: ファセットプロンプティング適用 | P1+P3完了 | 2-3週間 |
合計目安: 8-12週間(Phase 5は並行実施可)
v6が完了すると、PlanGateはハーネスエンジニアリング4領域のうち、スクラムの責務外の要素を除きほぼ全域をカバーする。
| ハーネス領域 | v3 | v4 | v5 | v6(予定) |
|---|---|---|---|---|
| コンテキスト設計 | 対応済 | 対応済 | 対応済 | 対応済 |
| 行動設計 | 対応済 | 対応済 | 対応済 | 強化(Hooksで100%強制) |
| フィードバック設計 | 部分的 | 対応済 | 強化(L-0) | さらに強化(段階的昇格) |
| 運用設計 | 部分的 | 部分的 | 部分的 | 対応(ガベコレ) |
PlanGateの独自の価値は「ゲートベースの厳格な人間承認」と「スクラムへの自然な組み込み」にある。ハーネスエンジニアリングの「環境設計」思想を取り込みつつ、PBI単位の開発フローとスクラムのリズムを崩さないことが大原則である。