ストーリー
田
田中VPoE
SREのスキルセット、採用戦略、育成プログラムを学んだ。これらを統合して、18ヶ月間のSREチーム構築ロードマップを策定してもらう
田
田中VPoE
そうだ。予算制約、採用市場の現実、既存チームのモチベーション — すべてを考慮した計画が必要だ。そして、各マイルストーンでチームが何を達成できる状態になるかを明確にしてほしい
あなた
マイルストーンごとのケイパビリティも定義します
あ
田
田中VPoE
完璧だ。CTOに提出する計画書として、十分な説得力を持つものにしてくれ
ミッション概要
| 項目 | 内容 |
|---|
| 演習タイトル | SREチーム構築計画の策定 |
| 想定時間 | 60分 |
| 成果物 | 18ヶ月SREチーム構築ロードマップ |
前提条件
| 項目 | 内容 |
|---|
| 現在のSRE人員 | 0名(運用チーム8名は転換候補) |
| 年間採用予算 | 新規採用2名/年(SREポジション) |
| 育成予算 | 1人あたり50万円/年(研修、書籍、カンファレンス) |
| 外部コンサルタント予算 | 500万円/年 |
Mission 1: 18ヶ月ロードマップ
要件
以下を含むSREチーム構築ロードマップを策定してください。
- 3フェーズの計画: 各6ヶ月の目標と主要活動
- 人員計画: 採用と育成のタイムライン
- マイルストーン: 各フェーズ終了時のケイパビリティ
- リスクと対策: 計画遂行上のリスク3つ以上
解答例
Phase 1: 基盤構築(0-6ヶ月)
| 月 | 人員アクション | 主要活動 |
|---|
| 1 | SREリード採用開始、コンサルタント契約 | SRE戦略策定、ツール選定 |
| 2 | SREリード着任(想定) | SLI/SLO設計、運用チーム研修開始 |
| 3 | SREエンジニア採用開始 | 主要3サービスのSLO導入 |
| 4 | 運用チーム Phase1研修完了 | エラーバジェットポリシー策定 |
| 5 | SREエンジニア着任(想定) | オンコール体制構築 |
| 6 | コンサルタント契約終了判断 | ポストモーテムプロセス確立 |
Phase 1終了時のケイパビリティ:
- 主要3サービスのSLI/SLO稼働
- オンコール体制でSREチーム(4名以上)が対応可能
- ポストモーテムプロセスが確立
Phase 2: 拡大(6-12ヶ月)
| 月 | 人員アクション | 主要活動 |
|---|
| 7 | 運用チーム Phase2研修完了 | 全サービスのSLO導入 |
| 8 | - | エラーバジェットダッシュボード構築 |
| 9 | 追加採用の判断 | 開発チームへのSRE文化コンサルティング開始 |
| 10 | - | 自動化プロジェクト推進 |
| 11 | 運用チーム Phase3完了(卒業評価) | ゲームデイの定期実施 |
| 12 | - | Phase 2振り返り、Phase 3計画策定 |
Phase 2終了時のケイパビリティ:
- 全サービスのSLO稼働、エラーバジェットポリシー運用中
- 運用チーム8名中6名以上がSREスキルL2に到達
- トイル率50%以下を達成
Phase 3: 成熟(12-18ヶ月)
| 月 | 人員アクション | 主要活動 |
|---|
| 13 | - | 開発チームのオンコール参加開始(シャドーイング) |
| 14 | - | SREプラットフォームの内製化 |
| 15 | 次年度採用計画策定 | ハイブリッド型組織への移行準備 |
| 16 | - | 開発チーム独立対応の段階的移行 |
| 17 | - | SRE組織の成熟度評価 |
| 18 | - | 2年目の戦略策定、成果報告 |
Phase 3終了時のケイパビリティ:
- ハイブリッド型SRE組織への移行完了
- 一部の開発チームが自律的にSREプラクティスを実行
- SRE組織のROIが数値で実証されている
リスクと対策
| リスク | 影響 | 確率 | 対策 |
|---|
| SREリード採用の長期化 | 計画全体が3-6ヶ月遅延 | 高 | コンサルタントで初期を代行、採用条件の柔軟化 |
| 運用チームの離職 | 育成投資の損失 | 中 | 早期にSREキャリアパスと報酬改善を提示 |
| 経営層のコミットメント低下 | 予算削減、優先度低下 | 中 | 3ヶ月ごとのROI報告、クイックウィンの創出 |
| SRE文化への抵抗 | プロセスが形骸化 | 高 | 小さな成功の積み重ね、チャンピオンの育成 |
Mission 2: スキルマトリクスと育成計画
要件
SREチーム全メンバーのスキルマトリクスと個別育成計画を策定してください。
- 現状スキル評価: 各メンバーの現在のスキルレベル(想定)
- 6ヶ月後目標: 各スキルの目標レベル
- 育成施策: 各メンバーごとの具体的な育成アクション
- 評価方法: スキル向上の評価基準
解答例
スキルマトリクス(現状→6ヶ月後目標)
| メンバー | プログラミング | 可観測性 | SLI/SLO | インシデント管理 | 自動化 |
|---|
| SREリード | L4 | L3 | L4 | L4 | L3 |
| SREエンジニア | L3 | L3→L4 | L3 | L3 | L3→L4 |
| プラットフォームA | L1→L2 | L2→L3 | L1→L2 | L2→L3 | L1→L2 |
| プラットフォームB | L1→L2 | L2 | L1→L2 | L2 | L1→L2 |
| プラットフォームC | L1 | L1→L2 | L1 | L1→L2 | L1 |
| 可観測性A | L1→L2 | L3 | L1→L2 | L2→L3 | L2 |
| 可観測性B | L1→L2 | L3 | L1→L2 | L2 | L2 |
| インフラA | L2 | L2→L3 | L1→L2 | L2→L3 | L2→L3 |
| インフラB | L1→L2 | L2 | L1→L2 | L2 | L1→L2 |
| インフラC | L2 | L2 | L1→L2 | L2 | L2→L3 |
個別育成計画(例: プラットフォームA)
| 月 | 育成テーマ | 具体的なアクション | 評価 |
|---|
| 1 | SRE基礎 | SRE研修受講、Google SRE本読了 | 理解度テスト |
| 2 | プログラミング | Python基礎コース + 自動化スクリプト作成 | コードレビュー |
| 3 | 可観測性実践 | Grafanaダッシュボード構築 | 成果物評価 |
| 4 | SLI/SLO | 担当サービスのSLI設計 | 設計レビュー |
| 5 | オンコール | シャドーイング開始 | 観察評価 |
| 6 | 総合 | ゲームデイでの実技評価 | 合否判定 |
達成度チェック
| 観点 | 達成基準 |
|---|
| ロードマップ | 18ヶ月の3フェーズ計画が現実的に設計されている |
| 人員計画 | 採用と育成の両方を考慮した人員計画がある |
| マイルストーン | 各フェーズのケイパビリティが明確に定義されている |
| リスク管理 | 主要なリスクと対策が識別されている |
| スキル育成 | 個別の育成計画と評価基準が定義されている |
推定所要時間: 60分