EXERCISE 90分

ストーリー

田中VPoE
ここまでの5つのStepで、SRE組織に必要なすべての要素を学んだ。最後の総合演習だ
あなた
全体を統合した設計書ですね
田中VPoE
そうだ。CTOと経営会議に提出する「SRE組織設計書」を完成させる。この文書が承認されれば、SRE組織の立ち上げが正式にスタートする

田中VPoEは真剣な表情で続けました。

田中VPoE
この設計書は「夢物語」であってはいけない。予算、人員、時間の制約の中で、最大の効果を生む現実的な計画だ。読んだCTOが「これならいける」と思えるものにしてくれ
あなた
これまでの演習の成果をすべて統合し、一貫性のある設計書にまとめます

ミッション概要

項目内容
演習タイトルSRE組織設計書
想定時間90分
成果物SRE組織設計書(経営層承認用)

設計書の構成

以下の章立てに従って、SRE組織設計書を作成してください。

第1章: エグゼクティブサマリー

項目内容
背景なぜSREが必要か(2-3行)
提案何を提案するか(2-3行)
投資必要な投資額(概算)
効果期待される効果(定量的)
タイムライン主要マイルストーン
解答例

背景: 当社のサービスは過去6ヶ月で重大インシデント12件、推定損失額3,000万円以上を記録。運用チームの離職率30%と深刻な属人化が進行している。

提案: SRE(Site Reliability Engineering)組織を新設し、信頼性をエンジニアリングの問題として体系的に解決する。既存運用チームの転換と外部採用を組み合わせた段階的アプローチで、18ヶ月で組織を確立する。

投資: 年間約2,500万円(採用2名 + 育成費 + ツール)

効果: インシデント数50%削減、MTTR75%改善、推定年間4,000万円以上の損失回避(ROI 160%)

タイムライン: Phase 1(基盤構築: 6ヶ月)→ Phase 2(拡大: 12ヶ月)→ Phase 3(成熟: 18ヶ月)


第2章: SRE組織のミッションとモデル

Step 1の成果を統合してください。

  1. ミッションステートメント
  2. コアバリュー
  3. 組織モデル(選定根拠付き)
  4. 組織図
解答例

ミッション: SREチームは、データに基づく意思決定と自動化を通じて、組織全体のサービス信頼性と開発生産性を向上させる。

組織モデル: Phase 1は中央集権型+コンサルティング要素。SRE人材2名+既存運用チーム8名の制約に最適。Phase 2以降にハイブリッド型へ移行。


第3章: SLI/SLO/エラーバジェットポリシー

Step 2の成果を統合してください。

  1. 対象サービスとSLI/SLO一覧
  2. エラーバジェットポリシー概要
  3. ダッシュボード設計
解答例
サービスTier主要SLOエラーバジェット(月間)
ECサイト1可用性 99.9%, 決済 99.95%43.2分 / 21.6分
API基盤2可用性 99.95%, P99 ≤ 200ms21.6分
データPL3処理成功率 99.9%, 鮮度 ≤ 10min43.2分

4段階エスカレーション(Level 0-3)、バジェット25%以下でリリース凍結。


第4章: インシデント管理体制

Step 3-4の成果を統合してください。

  1. オンコールローテーション設計
  2. エスカレーションフロー
  3. ポストモーテムプロセス
  4. 健全性メトリクス
解答例
  • Primary/Secondary × 週次交代(8名ローテーション)
  • 4段階の重大度定義(SEV1-4)
  • 時間ベースエスカレーション(5分→15分→30分→60分)
  • ブレームレスポストモーテム(SEV1/2は必須、72時間以内にドラフト)
  • MTTR目標: 1時間以内(現状4.2時間から75%改善)

第5章: チーム構築ロードマップ

Step 5の成果を統合してください。

  1. 採用計画
  2. 育成計画
  3. スキルマトリクス
  4. 予算計画
解答例
項目Phase 1Phase 2Phase 3合計
外部採用2名判断判断2-4名
内部育成研修開始6名卒業2名追加卒業8名
コンサルタント6ヶ月終了判断-3-6ヶ月

年間予算: 2,500万円(人件費1,600万 + 育成費400万 + コンサル500万)


第6章: 成功基準とROI

  1. KPI一覧(12ヶ月後の目標値)
  2. ROI計算
  3. 報告スケジュール
解答例
KPI現状6ヶ月後12ヶ月後
重大インシデント数(半期)12件8件6件
MTTR4.2時間2時間1時間
夜間対応(月)8回4回2回
デプロイ頻度月2回月4回週1回
デプロイ失敗率25%15%5%
運用チーム離職率(年)30%20%15%
SLO達成率未計測95%99%

ROI: 年間投資2,500万円に対し、損失回避4,000万円以上 → ROI 160%

報告スケジュール:

  • 月次: インシデントメトリクスレポート
  • 四半期: SRE組織成果レポート(経営会議)
  • 半期: ROIレポート(取締役会)

達成度チェック

観点達成基準
一貫性6章すべてが相互に整合している
具体性定量的な数値目標と期限がある
実現可能性予算・人員制約内で実現可能な計画
説得力経営層が承認できるレベルの根拠がある
網羅性SRE組織に必要な要素が漏れなくカバーされている

推定所要時間: 90分