ストーリー
田
田中VPoE
SREの原則はわかった。だが、うちの組織には「運用チーム」が既にある。彼らの仕事をSREに置き換えるわけだが、何がどう変わるのかを明確にしないと、混乱と抵抗を招く
あなた
既存の運用チームの方々は不安に感じるかもしれませんね
あ
田
田中VPoE
そう。だから「あなたたちの仕事を奪う」ではなく「あなたたちの仕事をエンジニアリングに進化させる」というメッセージが重要だ。具体的な違いを理解して、適切にコミュニケーションする必要がある
プラクティスの比較
障害対応
| 観点 | 従来運用 | SRE |
|---|
| 目標 | 「障害を起こさない」 | 「障害からの復旧を速くする」 |
| 対応者 | 運用チームが全件対応 | オンコールローテーション |
| 判断基準 | 経験と勘 | ランブックとSLOベースの判断 |
| 振り返り | 「犯人探し」会議 | ブレームレスポストモーテム |
| 改善 | 再発防止策(個人の注意力依存) | システムの改善(自動化、冗長化) |
キャパシティ管理
| 観点 | 従来運用 | SRE |
|---|
| 計画 | 年次のキャパシティ見積もり | 継続的なキャパシティプランニング |
| スケーリング | 手動プロビジョニング | 自動スケーリング |
| 予測 | 「去年比1.5倍」の経験則 | トラフィックモデリングと予測 |
| コスト | 「足りなくならないように多めに確保」 | 「必要な分だけ効率的に使う」 |
変更管理
| 観点 | 従来運用 | SRE |
|---|
| リリース頻度 | 月1回、大きなリリース | 日複数回、小さなリリース |
| リリースプロセス | 変更管理委員会(CAB)の承認 | 自動化されたパイプライン + SLOベースの判断 |
| ロールバック | 手動、時間がかかる | 自動、数分以内 |
| リスク評価 | 主観的(「大丈夫だろう」) | 定量的(エラーバジェット残量) |
組織構造の違い
従来型
CTO
├── 開発部門
│ ├── フロントエンドチーム
│ ├── バックエンドチーム
│ └── モバイルチーム
└── 運用部門
├── インフラチーム
├── 監視チーム
└── ヘルプデスク
問題: 「壁の向こうに投げる」文化
SRE型
CTO/VPoE
├── プロダクト開発
│ ├── チームA(フルスタック + SRE責務)
│ ├── チームB(フルスタック + SRE責務)
│ └── チームC(フルスタック + SRE責務)
├── SREチーム(横断)
│ ├── プラットフォームSRE
│ ├── インシデント管理
│ └── 可観測性基盤
└── インフラチーム
└── クラウド基盤管理
ポイント: 開発チームが信頼性に責任を持ち、SREが横断的に支援
移行における課題と対策
よくある抵抗パターン
| 抵抗 | 発言例 | 対策 |
|---|
| 運用チームの不安 | 「自分たちの仕事がなくなる」 | SREへのスキルアップパスを提示 |
| 開発チームの拒否 | 「運用まで面倒を見る余裕がない」 | エラーバジェットの範囲内なら開発に集中できることを説明 |
| 経営層の懐疑 | 「今の体制で問題ないのでは」 | インシデントコストとSRE投資のROIを提示 |
| 中間管理職の不安 | 「組織変更で自分のポジションがなくなる」 | SREリーダーとしての新しい役割を提案 |
まとめ
| ポイント | 内容 |
|---|
| 最大の違い | 「障害を防ぐ」から「障害からの回復を速くする」への発想転換 |
| 組織構造 | 開発チームが信頼性に責任を持ち、SREが横断的に支援 |
| 移行の鍵 | 「仕事を奪う」ではなく「仕事をエンジニアリングに進化させる」 |
チェックリスト
次のステップへ
次は「SRE組織モデル」です。SRE組織をどのような形態で構築するか、複数のモデルから選定する方法を学びましょう。
推定読了時間: 30分