SREとは何か - L0 カリキュラム

ストーリー

田

田中VPoE

Month 1でCI/CD基盤を設計した。素晴らしい成果だ。だが基盤を作っただけでは組織は変わらない。それを運用し、信頼性を守り続ける組織が必要だ

あなた

運用チームを強化する、ということですか？

あ

田

田中VPoE

違う。「運用チーム」という発想自体を変える。うちの組織では「運用は運用チームの仕事」という考えが根強い。開発チームはコードを書いて投げるだけ、運用チームが夜中に障害対応する — この構造が問題なんだ

田中VPoEはホワイトボードに2つの円を描きました。「開発」と「運用」。その間に大きな溝を描きます。

田

田中VPoE

この溝を埋めるのがSRE — Site Reliability Engineeringだ。Googleが提唱した「信頼性をエンジニアリングの問題として捉え直す」アプローチだ

あなた

開発と運用の壁を壊す…DevOpsとは違うんですか？

あ

田

田中VPoE

いい質問だ。DevOpsは「文化と考え方」、SREは「DevOpsを実装した具体的なプラクティス」と言えるだろう。今月は、この組織にSREを根付かせるための設計をしてもらう

SRE（Site Reliability Engineering）は2003年にGoogleのBen Treynor Slossが立ち上げた組織とプラクティスです。

「SREとは、ソフトウェアエンジニアに運用の問題を解かせたときに起きることだ」 — Ben Treynor Sloss

DevOps（文化・考え方）
  ↓ 具体的に実装すると
SRE（プラクティス・手法）
  ├── SLI/SLO/エラーバジェット
  ├── トイル（Toil）の削減
  ├── ポストモーテム
  ├── オンコール体制
  └── カオスエンジニアリング

「CI/CD基盤は作れた。次はそれを守り、育てる組織を作る。技術とプロセスと文化 — 3つを同時に設計するのがL4のSREだ」 — 田中VPoE

ポイント	内容
SREの定義	信頼性をエンジニアリングの問題として解決するアプローチ
DevOpsとの関係	DevOpsの具体的な実装がSRE
組織の課題	属人化、対立、定量化不在、改善機会の損失

次は「SREの基本原則」を学びます。SREを支える7つの原則を深掘りしましょう。

推定読了時間: 15分