組織レベルのSLI/SLO戦略 - L0 カリキュラム

ストーリー

田

田中VPoE

プラットフォームの設計ができた。次はそのプラットフォームの上で「何を測るか」を定義する。SLI/SLO体系の組織展開だ

あなた

SLI/SLOは各チームが個別に定義すればいいのでは？

あ

田

田中VPoE

チームごとにバラバラに定義すると、同じサービスティアなのにSLOの基準が異なったり、上流サービスのSLOが下流より緩くて意味をなさない、という状況が起きる。組織として統一された体系が必要だ

あなた

「組織レベル」のSLI/SLO戦略というのは、全社共通のフレームワークを作るということですか

あ

田

田中VPoE

その通りだ。個別のSLO値はチームが決める。だがSLIの選び方、SLOの基準水準、エラーバジェットのポリシー — これらの「枠組み」を組織として標準化する。これがSLI/SLO体系だ

関係性:

  SLO（内部目標）: 99.95%  ← チームが目指す水準
  SLA（外部契約）: 99.9%   ← 顧客への約束

  バッファ: 0.05% = SLOとSLAの差
  → このバッファがあることで、SLO違反が即SLA違反にならない

組織内のサービスをビジネスインパクトに応じてティア分類し、ティアごとにSLOの基準水準を設定します。

ティア	定義	SLO基準水準	例
Tier 1: クリティカル	ダウンすると売上・信頼に直接影響	99.95%以上	決済API、認証サービス
Tier 2: 重要	ダウンすると主要機能に影響	99.9%以上	タスク管理API、通知サービス
Tier 3: 標準	ダウンしても一部機能に限定的影響	99.5%以上	検索サービス、レポート生成
Tier 4: 低優先	ダウンしてもビジネス影響が小さい	99.0%以上	バッチ処理、内部ツール

判定軸	Tier 1	Tier 2	Tier 3	Tier 4
売上への直接影響	あり	間接的	なし	なし
影響ユーザー数	全ユーザー	大多数	一部	社内のみ
代替手段	なし	限定的	あり	あり
ダウンタイム許容度	分単位	10分以内	1時間以内	日単位
依存サービス数	多い	中程度	少ない	なし

SLOとダウンタイムの対応:

SLO 99.95% → 月間ダウンタイム許容: 約22分
SLO 99.9%  → 月間ダウンタイム許容: 約44分
SLO 99.5%  → 月間ダウンタイム許容: 約3.6時間
SLO 99.0%  → 月間ダウンタイム許容: 約7.2時間

理由	説明
不可能性	100%の可用性は物理的に達成不可能（ハードウェア故障、ネットワーク障害）
コスト曲線	99.9%→99.99%は99%→99.9%の10倍以上のコストがかかる
イノベーション阻害	100%を目指すとデプロイが停止し、改善ができなくなる
エラーバジェット	適切なSLOがあることでエラーバジェットが生まれ、リスクのある改善に投資できる

1. 現状のSLI実績を30日間測定する
2. P50とP99を把握する
3. ユーザー体験から許容範囲を定義する
4. ティア基準と照合する
5. SLOを仮設定する（現状実績より少し厳しく）
6. 1-2四半期運用して妥当性を検証する
7. 実績に基づいてSLOを調整する

「SLOは”約束”であり”目標”だ。高すぎるSLOは開発速度を殺し、低すぎるSLOはユーザー体験を犠牲にする。データに基づいて”ちょうどいい”水準を見つけることが組織の成熟度を示す」 — 田中VPoE

ポイント	内容
SLI/SLO/SLA	SLIが指標、SLOが目標、SLAが契約。SLO > SLAで運用
SLI設計原則	ユーザー視点、測定可能、比率表現、アクショナブル
ティア制度	サービスをTier 1-4に分類し、ティア別にSLO基準水準を設定
SLO設定	100%にしない、現状実績に基づき段階的に調整

次は「SLO階層設計」を学びます。組織全体のSLOをどのように階層的に設計し、サービス間の依存関係を考慮したSLO体系を構築するかを身につけましょう。

推定読了時間: 30分