QUIZ 30分

クイズの説明

Step 2「エラーバジェットポリシーを策定しよう」の理解度を確認します。SLI/SLO設計、エラーバジェット、ポリシー策定について問います。

合格ライン: 80%(5問中4問正解)


問題

Q1. SLIの選定

ECサイトの可用性を測定するSLIとして最も適切なものはどれですか?

  • A. サーバーのCPU使用率が80%以下の時間の割合
  • B. ユーザーリクエストに対する成功レスポンス(2xx, 3xx)の割合
  • C. 死活監視(ping)の成功率
  • D. デプロイの成功率
答えを見る

正解: B

SLIはユーザー体験を反映する指標であるべきです。CPU使用率(A)はインフラ指標であり、CPUが低くてもアプリケーションがハングしている場合を検出できません。死活監視(C)はサーバーレベルの確認であり、アプリケーション層の問題を見逃します。デプロイ成功率(D)は開発プロセスの指標であり、ユーザー体験を直接反映しません。ユーザーリクエストに対する成功レスポンスの割合(B)が、ユーザーが実際に体験する可用性を最も正確に反映します。


Q2. SLOとSLAの関係

SLOとSLAの関係について正しい記述はどれですか?

  • A. SLOとSLAは同じ値に設定すべきである
  • B. SLOはSLAより緩く(低く)設定し、顧客にはより高い品質を約束すべきである
  • C. SLOはSLAより厳しく(高く)設定し、SLA違反を防ぐバッファを持たせるべきである
  • D. SLAが先に決まり、SLOはSLAから自動的に導かれる
答えを見る

正解: C

SLOはSLAより厳しく設定すべきです。これにより、SLOに違反した時点でアラートが上がり、SLA違反(顧客への契約違反)に至る前に対処できます。例えば、SLAが99.9%なら、SLOは99.95%に設定するのが一般的です。SLOとSLAを同じ値(A)にすると、SLO違反時にはすでにSLA違反になっています。SLOをSLAより緩く(B)するのは逆効果です。SLOの設計はSLIとビジネス要件から導くもの(D)であり、SLAから自動的に決まるわけではありません。


Q3. エラーバジェットの計算

SLO 99.95%のサービスにおいて、30日間のエラーバジェット(ダウンタイム許容量)に最も近い値はどれですか?

  • A. 約4.3分
  • B. 約21.6分
  • C. 約43.2分
  • D. 約7.3時間
答えを見る

正解: B

エラーバジェット = (1 - SLO) × 30日 × 24時間 × 60分 = (1 - 0.9995) × 30 × 24 × 60 = 0.0005 × 43,200 = 21.6分

参考:

  • 99.99% → 約4.3分(A)
  • 99.95% → 約21.6分(B)← 正解
  • 99.9% → 約43.2分(C)
  • 99% → 約7.3時間(D)

Q4. バーンレートの解釈

SLO 99.9%のサービスで、バーンレートが3.0を示しています。この状況の正しい解釈はどれですか?

  • A. サービスは計画通りに運用されており、問題はない
  • B. エラーバジェットの消費速度が通常の3倍であり、このペースが続くと月の1/3でバジェットが枯渇する
  • C. サービスの可用性が99.7%に低下しており、SLO違反が確定している
  • D. 3つのインシデントが同時に発生していることを示している
答えを見る

正解: B

バーンレート = 実際のエラー率 / 許容エラー率です。バーンレート3.0は、エラーバジェットが通常の3倍の速さで消費されていることを意味します。バーンレート1.0なら月末にちょうどバジェットが枯渇するペースなので、3.0なら約10日でバジェットが枯渇する計算です。ただし、これは「瞬間的な速度」であり、SLO違反が確定(C)しているわけではありません。バーンレートはインシデント数(D)ではなく、エラー率の比率を示します。


Q5. エラーバジェットポリシーの例外処理

エラーバジェットが枯渇し、リリース凍結中に「競合他社が同等機能をリリースした。1週間以内に対抗機能を出さないと市場シェアを失う」とPMから要請がありました。最も適切な対応はどれですか?

  • A. ビジネス優先で即座にリリースを許可する。信頼性はあとで改善すればよい
  • B. ポリシーに従い例外申請プロセスを実施する。リスク評価を文書化し、承認者の判断を仰ぐ。承認された場合はカナリアリリースと観察期間を必須とする
  • C. ポリシーは絶対なので、いかなる理由でもリリース凍結を解除しない
  • D. SREチームの判断でリリースを許可し、事後にVPoEに報告する
答えを見る

正解: B

エラーバジェットポリシーには例外処理プロセスが含まれているべきです。ビジネスクリティカルな状況では、定められた手続きに従って例外申請を行います。即座に許可(A)はポリシーを形骸化させます。絶対に解除しない(C)は組織に現実的でなく、ポリシー自体が無視されるようになります。SREの独断(D)は権限逸脱です。正しくは、PMがリスク評価を文書化し、SREリードがテクニカルリスクを評価し、VPoE等の承認者が判断する。承認された場合もカナリアリリース必須、観察期間設定など、リスク軽減措置を取ります。


結果

合格(4問以上正解)

Step 2の内容をよく理解しています。SLI/SLOの設計原則、エラーバジェットの計算と活用、ポリシー策定の要点を身につけました。次のStep 3「オンコール体制を設計しよう」に進みましょう。

不合格(3問以下正解)

Step 2の内容を復習しましょう。特に以下のポイントを重点的に確認してください:

  • SLIの選定 — ユーザー体験を反映する指標を選ぶ
  • エラーバジェットの計算 — (1 - SLO) × 期間 で算出
  • ポリシーの運用 — 例外処理を含む現実的な設計

推定所要時間: 30分