LESSON 30分

ストーリー

田中VPoE
SLI/SLOの設計方法とエラーバジェットの考え方を学んだ。最後のピースは「エラーバジェットポリシー」だ。バジェットが減ったとき、組織として何をするかを事前に合意しておく文書だ
あなた
いわば「緊急時の行動計画」ですね
田中VPoE
そうだ。ただし、これが最も難しい部分でもある。「バジェットが枯渇したらリリース凍結」と書くのは簡単だが、実際にPMから「この機能は来週リリースしないと競合に負ける」と言われたとき、本当に凍結できるか?
あなた
ポリシーに政治的な圧力がかかる場面ですね…
田中VPoE
だからこそ、経営層も含めた合意が必要だ。ポリシーを骨抜きにしたら、SREの仕組み全体が崩壊する

エラーバジェットポリシーとは

定義と目的

項目内容
定義エラーバジェットの消費状況に応じた組織の行動規範を定めた文書
目的信頼性と開発速度のバランスを組織的に管理する仕組みを確立する
対象者開発チーム、SREチーム、PM、経営層
承認者VPoE以上(組織をまたぐ判断権限が必要)

ポリシーの構成要素

エラーバジェットポリシー:
├── 1. 適用範囲(どのサービスに適用するか)
├── 2. エスカレーション閾値(どの水準で何が起きるか)
├── 3. 凍結ルール(リリース凍結の条件と解除条件)
├── 4. 例外処理(ポリシーを例外的に緩和する手続き)
├── 5. 責任と権限(誰が判断し、誰が実行するか)
└── 6. レビューと更新(ポリシー自体の見直しサイクル)

エスカレーション閾値の設計

4段階モデル

レベルバジェット残量状態アクション判断者
Level 075%以上正常通常開発。リリース制限なしチーム自律
Level 150-75%注意リスクの高い変更にレビュー追加テックリード
Level 225-50%警戒リリース頻度を半減、信頼性タスクを優先SREリード + PM
Level 325%以下危険新機能リリース凍結、信頼性回復に専念VPoE承認

バーンレートによる早期警告

バーンレート意味アクション
≤ 0.5余裕あり制限なし
0.5-1.0計画通り通常運用
1.0-2.0やや速い原因調査を開始
2.0-5.0危険緊急対応チーム編成
> 5.0重大即座にLevel 3対応

リリース凍結ポリシー

凍結の条件

条件詳細
自動凍結バジェット残量が25%以下に到達した時点で自動発動
手動凍結SREリードがバーンレート5.0以上を確認した場合
部分凍結バジェット影響のあるサービスのみ凍結(他サービスは継続可能)

凍結中に許可される変更

許可不許可
セキュリティパッチ新機能リリース
信頼性改善(バグ修正)UIの変更
ロールバックパフォーマンス最適化以外のリファクタリング
可観測性の改善依存ライブラリの大幅アップグレード

凍結解除の条件

凍結解除には以下のすべてを満たす必要がある:

1. エラーバジェット残量が50%以上に回復
   OR 新しい計測期間(月初め)の開始

2. 枯渇原因のポストモーテムが完了している

3. ポストモーテムのアクションアイテムが着手されている
   (完了は不要だが、計画と着手は必須)

4. SREリード + PM + テックリードの3者が解除に合意

例外処理の設計

例外の種類

例外タイプ説明承認者
ビジネスクリティカル法的要件、規制対応、重大な機会損失CTO
セキュリティ脆弱性の緊急パッチセキュリティリード
顧客影響特定顧客向けの緊急修正PM + SREリード

例外申請プロセス

1. 申請者がリスク評価を文書化
   - なぜ凍結中にリリースが必要か
   - リリースしない場合のビジネスインパクト
   - リリースによる信頼性リスクの見積もり

2. SREリードがテクニカルリスクを評価
   - バジェットへの追加消費の見積もり
   - ロールバック計画の確認

3. 承認者が判断
   - 承認/却下/条件付き承認

4. 承認された場合
   - カナリアリリース必須
   - 15分間の観察期間
   - ロールバック閾値の事前設定

5. 結果の記録
   - 例外申請は全て記録し、四半期レビューで傾向分析

ポリシードキュメントのテンプレート

記載項目

セクション必須内容
目的と背景なぜこのポリシーが必要か
適用範囲対象サービス、対象チーム
エスカレーション閾値Level 0-3の定義
凍結ルール凍結条件、許可変更、解除条件
例外処理例外の種類と申請プロセス
責任と権限RACI表
計測と報告ダッシュボード、レポート頻度
レビューポリシー見直し頻度(推奨: 半期)
署名VPoE以上の承認署名

RACI表の例

アクティビティ開発チームSREチームPMVPoE
SLI計測IR/AII
バジェット監視IR/AII
Level 1対応RA/CII
Level 2対応RACI
Level 3対応RRCA
凍結判断CRCA
例外承認ICCA

R=Responsible, A=Accountable, C=Consulted, I=Informed


まとめ

ポイント内容
ポリシーの本質バジェット消費に応じた行動規範を事前に合意する
成功の鍵経営層の承認と、例外処理の設計
凍結解除バジェット回復 + ポストモーテム完了 + 3者合意

チェックリスト

  • 4段階エスカレーションモデルを理解した
  • リリース凍結の条件と解除条件を理解した
  • 例外処理プロセスの重要性を理解した

次のステップへ

次は「演習:エラーバジェットポリシーを策定しよう」です。ここまで学んだ知識を活かして、実際のサービスに対するSLI/SLO設計とエラーバジェットポリシーを策定しましょう。


推定読了時間: 30分