SREと従来運用の違い - L0 カリキュラム

ストーリー

田

田中VPoE

SREの原則はわかった。だが、うちの組織には「運用チーム」が既にある。彼らの仕事をSREに置き換えるわけだが、何がどう変わるのかを明確にしないと、混乱と抵抗を招く

あなた

既存の運用チームの方々は不安に感じるかもしれませんね

あ

田

田中VPoE

そう。だから「あなたたちの仕事を奪う」ではなく「あなたたちの仕事をエンジニアリングに進化させる」というメッセージが重要だ。具体的な違いを理解して、適切にコミュニケーションする必要がある

プラクティスの比較

障害対応

観点	従来運用	SRE
目標	「障害を起こさない」	「障害からの復旧を速くする」
対応者	運用チームが全件対応	オンコールローテーション
判断基準	経験と勘	ランブックとSLOベースの判断
振り返り	「犯人探し」会議	ブレームレスポストモーテム
改善	再発防止策（個人の注意力依存）	システムの改善（自動化、冗長化）

キャパシティ管理

観点	従来運用	SRE
計画	年次のキャパシティ見積もり	継続的なキャパシティプランニング
スケーリング	手動プロビジョニング	自動スケーリング
予測	「去年比1.5倍」の経験則	トラフィックモデリングと予測
コスト	「足りなくならないように多めに確保」	「必要な分だけ効率的に使う」

変更管理

観点	従来運用	SRE
リリース頻度	月1回、大きなリリース	日複数回、小さなリリース
リリースプロセス	変更管理委員会（CAB）の承認	自動化されたパイプライン + SLOベースの判断
ロールバック	手動、時間がかかる	自動、数分以内
リスク評価	主観的（「大丈夫だろう」）	定量的（エラーバジェット残量）

組織構造の違い

従来型

CTO
├── 開発部門
│   ├── フロントエンドチーム
│   ├── バックエンドチーム
│   └── モバイルチーム
└── 運用部門
    ├── インフラチーム
    ├── 監視チーム
    └── ヘルプデスク

問題: 「壁の向こうに投げる」文化

SRE型

CTO/VPoE
├── プロダクト開発
│   ├── チームA（フルスタック + SRE責務）
│   ├── チームB（フルスタック + SRE責務）
│   └── チームC（フルスタック + SRE責務）
├── SREチーム（横断）
│   ├── プラットフォームSRE
│   ├── インシデント管理
│   └── 可観測性基盤
└── インフラチーム
    └── クラウド基盤管理

ポイント: 開発チームが信頼性に責任を持ち、SREが横断的に支援

移行における課題と対策

よくある抵抗パターン

抵抗	発言例	対策
運用チームの不安	「自分たちの仕事がなくなる」	SREへのスキルアップパスを提示
開発チームの拒否	「運用まで面倒を見る余裕がない」	エラーバジェットの範囲内なら開発に集中できることを説明
経営層の懐疑	「今の体制で問題ないのでは」	インシデントコストとSRE投資のROIを提示
中間管理職の不安	「組織変更で自分のポジションがなくなる」	SREリーダーとしての新しい役割を提案

まとめ

ポイント	内容
最大の違い	「障害を防ぐ」から「障害からの回復を速くする」への発想転換
組織構造	開発チームが信頼性に責任を持ち、SREが横断的に支援
移行の鍵	「仕事を奪う」ではなく「仕事をエンジニアリングに進化させる」

チェックリスト

従来運用とSREの具体的な違いを理解した
組織構造の変化を理解した
移行時の抵抗パターンと対策を理解した

次のステップへ

次は「SRE組織モデル」です。SRE組織をどのような形態で構築するか、複数のモデルから選定する方法を学びましょう。

推定読了時間: 30分