クイズの説明
Step 2「エラーバジェットポリシーを策定しよう」の理解度を確認します。SLI/SLO設計、エラーバジェット、ポリシー策定について問います。
合格ライン: 80%(5問中4問正解)
問題
Q1. SLIの選定
ECサイトの可用性を測定するSLIとして最も適切なものはどれですか?
- A. サーバーのCPU使用率が80%以下の時間の割合
- B. ユーザーリクエストに対する成功レスポンス(2xx, 3xx)の割合
- C. 死活監視(ping)の成功率
- D. デプロイの成功率
答えを見る
正解: B
SLIはユーザー体験を反映する指標であるべきです。CPU使用率(A)はインフラ指標であり、CPUが低くてもアプリケーションがハングしている場合を検出できません。死活監視(C)はサーバーレベルの確認であり、アプリケーション層の問題を見逃します。デプロイ成功率(D)は開発プロセスの指標であり、ユーザー体験を直接反映しません。ユーザーリクエストに対する成功レスポンスの割合(B)が、ユーザーが実際に体験する可用性を最も正確に反映します。
Q2. SLOとSLAの関係
SLOとSLAの関係について正しい記述はどれですか?
- A. SLOとSLAは同じ値に設定すべきである
- B. SLOはSLAより緩く(低く)設定し、顧客にはより高い品質を約束すべきである
- C. SLOはSLAより厳しく(高く)設定し、SLA違反を防ぐバッファを持たせるべきである
- D. SLAが先に決まり、SLOはSLAから自動的に導かれる
答えを見る
正解: C
SLOはSLAより厳しく設定すべきです。これにより、SLOに違反した時点でアラートが上がり、SLA違反(顧客への契約違反)に至る前に対処できます。例えば、SLAが99.9%なら、SLOは99.95%に設定するのが一般的です。SLOとSLAを同じ値(A)にすると、SLO違反時にはすでにSLA違反になっています。SLOをSLAより緩く(B)するのは逆効果です。SLOの設計はSLIとビジネス要件から導くもの(D)であり、SLAから自動的に決まるわけではありません。
Q3. エラーバジェットの計算
SLO 99.95%のサービスにおいて、30日間のエラーバジェット(ダウンタイム許容量)に最も近い値はどれですか?
- A. 約4.3分
- B. 約21.6分
- C. 約43.2分
- D. 約7.3時間
答えを見る
正解: B
エラーバジェット = (1 - SLO) × 30日 × 24時間 × 60分 = (1 - 0.9995) × 30 × 24 × 60 = 0.0005 × 43,200 = 21.6分
参考:
- 99.99% → 約4.3分(A)
- 99.95% → 約21.6分(B)← 正解
- 99.9% → 約43.2分(C)
- 99% → 約7.3時間(D)
Q4. バーンレートの解釈
SLO 99.9%のサービスで、バーンレートが3.0を示しています。この状況の正しい解釈はどれですか?
- A. サービスは計画通りに運用されており、問題はない
- B. エラーバジェットの消費速度が通常の3倍であり、このペースが続くと月の1/3でバジェットが枯渇する
- C. サービスの可用性が99.7%に低下しており、SLO違反が確定している
- D. 3つのインシデントが同時に発生していることを示している
答えを見る
正解: B
バーンレート = 実際のエラー率 / 許容エラー率です。バーンレート3.0は、エラーバジェットが通常の3倍の速さで消費されていることを意味します。バーンレート1.0なら月末にちょうどバジェットが枯渇するペースなので、3.0なら約10日でバジェットが枯渇する計算です。ただし、これは「瞬間的な速度」であり、SLO違反が確定(C)しているわけではありません。バーンレートはインシデント数(D)ではなく、エラー率の比率を示します。
Q5. エラーバジェットポリシーの例外処理
エラーバジェットが枯渇し、リリース凍結中に「競合他社が同等機能をリリースした。1週間以内に対抗機能を出さないと市場シェアを失う」とPMから要請がありました。最も適切な対応はどれですか?
- A. ビジネス優先で即座にリリースを許可する。信頼性はあとで改善すればよい
- B. ポリシーに従い例外申請プロセスを実施する。リスク評価を文書化し、承認者の判断を仰ぐ。承認された場合はカナリアリリースと観察期間を必須とする
- C. ポリシーは絶対なので、いかなる理由でもリリース凍結を解除しない
- D. SREチームの判断でリリースを許可し、事後にVPoEに報告する
答えを見る
正解: B
エラーバジェットポリシーには例外処理プロセスが含まれているべきです。ビジネスクリティカルな状況では、定められた手続きに従って例外申請を行います。即座に許可(A)はポリシーを形骸化させます。絶対に解除しない(C)は組織に現実的でなく、ポリシー自体が無視されるようになります。SREの独断(D)は権限逸脱です。正しくは、PMがリスク評価を文書化し、SREリードがテクニカルリスクを評価し、VPoE等の承認者が判断する。承認された場合もカナリアリリース必須、観察期間設定など、リスク軽減措置を取ります。
結果
合格(4問以上正解)
Step 2の内容をよく理解しています。SLI/SLOの設計原則、エラーバジェットの計算と活用、ポリシー策定の要点を身につけました。次のStep 3「オンコール体制を設計しよう」に進みましょう。
不合格(3問以下正解)
Step 2の内容を復習しましょう。特に以下のポイントを重点的に確認してください:
- SLIの選定 — ユーザー体験を反映する指標を選ぶ
- エラーバジェットの計算 — (1 - SLO) × 期間 で算出
- ポリシーの運用 — 例外処理を含む現実的な設計
推定所要時間: 30分