ストーリー
田中VPoEは真剣な表情で続けました。
ミッション概要
| 項目 | 内容 |
|---|---|
| 演習タイトル | SRE組織設計書 |
| 想定時間 | 90分 |
| 成果物 | SRE組織設計書(経営層承認用) |
設計書の構成
以下の章立てに従って、SRE組織設計書を作成してください。
第1章: エグゼクティブサマリー
| 項目 | 内容 |
|---|---|
| 背景 | なぜSREが必要か(2-3行) |
| 提案 | 何を提案するか(2-3行) |
| 投資 | 必要な投資額(概算) |
| 効果 | 期待される効果(定量的) |
| タイムライン | 主要マイルストーン |
解答例
背景: 当社のサービスは過去6ヶ月で重大インシデント12件、推定損失額3,000万円以上を記録。運用チームの離職率30%と深刻な属人化が進行している。
提案: SRE(Site Reliability Engineering)組織を新設し、信頼性をエンジニアリングの問題として体系的に解決する。既存運用チームの転換と外部採用を組み合わせた段階的アプローチで、18ヶ月で組織を確立する。
投資: 年間約2,500万円(採用2名 + 育成費 + ツール)
効果: インシデント数50%削減、MTTR75%改善、推定年間4,000万円以上の損失回避(ROI 160%)
タイムライン: Phase 1(基盤構築: 6ヶ月)→ Phase 2(拡大: 12ヶ月)→ Phase 3(成熟: 18ヶ月)
第2章: SRE組織のミッションとモデル
Step 1の成果を統合してください。
- ミッションステートメント
- コアバリュー
- 組織モデル(選定根拠付き)
- 組織図
解答例
ミッション: SREチームは、データに基づく意思決定と自動化を通じて、組織全体のサービス信頼性と開発生産性を向上させる。
組織モデル: Phase 1は中央集権型+コンサルティング要素。SRE人材2名+既存運用チーム8名の制約に最適。Phase 2以降にハイブリッド型へ移行。
第3章: SLI/SLO/エラーバジェットポリシー
Step 2の成果を統合してください。
- 対象サービスとSLI/SLO一覧
- エラーバジェットポリシー概要
- ダッシュボード設計
解答例
| サービス | Tier | 主要SLO | エラーバジェット(月間) |
|---|---|---|---|
| ECサイト | 1 | 可用性 99.9%, 決済 99.95% | 43.2分 / 21.6分 |
| API基盤 | 2 | 可用性 99.95%, P99 ≤ 200ms | 21.6分 |
| データPL | 3 | 処理成功率 99.9%, 鮮度 ≤ 10min | 43.2分 |
4段階エスカレーション(Level 0-3)、バジェット25%以下でリリース凍結。
第4章: インシデント管理体制
Step 3-4の成果を統合してください。
- オンコールローテーション設計
- エスカレーションフロー
- ポストモーテムプロセス
- 健全性メトリクス
解答例
- Primary/Secondary × 週次交代(8名ローテーション)
- 4段階の重大度定義(SEV1-4)
- 時間ベースエスカレーション(5分→15分→30分→60分)
- ブレームレスポストモーテム(SEV1/2は必須、72時間以内にドラフト)
- MTTR目標: 1時間以内(現状4.2時間から75%改善)
第5章: チーム構築ロードマップ
Step 5の成果を統合してください。
- 採用計画
- 育成計画
- スキルマトリクス
- 予算計画
解答例
| 項目 | Phase 1 | Phase 2 | Phase 3 | 合計 |
|---|---|---|---|---|
| 外部採用 | 2名 | 判断 | 判断 | 2-4名 |
| 内部育成 | 研修開始 | 6名卒業 | 2名追加卒業 | 8名 |
| コンサルタント | 6ヶ月 | 終了判断 | - | 3-6ヶ月 |
年間予算: 2,500万円(人件費1,600万 + 育成費400万 + コンサル500万)
第6章: 成功基準とROI
- KPI一覧(12ヶ月後の目標値)
- ROI計算
- 報告スケジュール
解答例
| KPI | 現状 | 6ヶ月後 | 12ヶ月後 |
|---|---|---|---|
| 重大インシデント数(半期) | 12件 | 8件 | 6件 |
| MTTR | 4.2時間 | 2時間 | 1時間 |
| 夜間対応(月) | 8回 | 4回 | 2回 |
| デプロイ頻度 | 月2回 | 月4回 | 週1回 |
| デプロイ失敗率 | 25% | 15% | 5% |
| 運用チーム離職率(年) | 30% | 20% | 15% |
| SLO達成率 | 未計測 | 95% | 99% |
ROI: 年間投資2,500万円に対し、損失回避4,000万円以上 → ROI 160%
報告スケジュール:
- 月次: インシデントメトリクスレポート
- 四半期: SRE組織成果レポート(経営会議)
- 半期: ROIレポート(取締役会)
達成度チェック
| 観点 | 達成基準 |
|---|---|
| 一貫性 | 6章すべてが相互に整合している |
| 具体性 | 定量的な数値目標と期限がある |
| 実現可能性 | 予算・人員制約内で実現可能な計画 |
| 説得力 | 経営層が承認できるレベルの根拠がある |
| 網羅性 | SRE組織に必要な要素が漏れなくカバーされている |
推定所要時間: 90分