QUIZ 30分

クイズの説明

Step 3「SLI/SLO体系を組織に展開しよう」の理解度を確認します。SLI/SLO戦略、階層設計、エラーバジェットポリシー、レビュープロセスについて問います。

合格ライン: 80%(5問中4問正解)


問題

Q1. SLOを100%に設定しない理由

SLOを100%に設定すべきでない理由として、最も本質的なものはどれですか?

  • A. 100%の可用性は技術的に実現可能だが、コストが高すぎるため
  • B. 100%のSLOではエラーバジェットが0になり、一切の変更(デプロイ、実験)ができなくなるため
  • C. 業界標準が99.9%であり、100%を設定すると他社との比較が困難になるため
  • D. SLAが100%未満であるため、SLOも100%未満にすべきであるため
答えを見る

正解: B

SLOを100%に設定すると、エラーバジェットが0%になります。これは「一切のエラーも許容しない」ことを意味し、結果としてデプロイ、設定変更、実験的機能のリリースなど、すべてのリスクを伴う変更ができなくなります。これはイノベーションと改善を完全に停止させます。技術的な不可能性(A)も理由の一つですが、最も本質的な問題は「変更の自由度がゼロになる」ことです。


Q2. ジャーニーSLOの意義

ジャーニーSLOをサービスSLOとは別に定義する最大の意義はどれですか?

  • A. ジャーニーSLOを定義することで、サービスSLOの定義が不要になるから
  • B. 個別サービスのSLOが達成されていても、ユーザーが体験するEnd-to-Endの品質が保証されないケースを検出できるから
  • C. ジャーニーSLOは経営層向けの報告指標であり、実際の運用には使われないから
  • D. ジャーニーSLOは個別サービスSLOの単純平均であり、集計の手間を省くためだから
答えを見る

正解: B

ジャーニーSLOの最大の意義は、個別サービスのSLOでは検出できない「End-to-Endの品質劣化」を捉えることです。例えば、API GatewayのSLO(99.95%)とTask ServiceのSLO(99.9%)とDBのSLO(99.99%)がそれぞれ達成されていても、直列に依存する場合の理論的上限は掛け算(99.84%)になるため、ジャーニー全体の品質は個別SLO以下になります。ジャーニーSLOはサービスSLOを置き換えるものではなく(A)、運用でも活用され(C)、単純平均ではなく依存関係に基づく複合指標です(D)。


Q3. エラーバジェットポリシーのOrangeステージ

エラーバジェットがOrangeステージ(残量25-50%)に入ったTier 1サービスに対して、最も適切な対応はどれですか?

  • A. 全ての開発を即座に停止し、バジェットが100%に回復するまで待つ
  • B. 新機能開発の一部を凍結し、信頼性改善タスクの優先度を引き上げ、全デプロイにSRE承認を必須にする
  • C. 現状のまま開発を継続し、月次レビューで対応を検討する
  • D. SLOの値を引き下げてバジェットの余裕を作り出す
答えを見る

正解: B

Orangeステージでは「段階的な制限」が重要です。完全な開発停止(A)はRedステージのアクションであり、Orangeでは過剰反応です。月次レビューまで待つ(C)ではバジェット枯渇のリスクがあります。SLOの引き下げ(D)はエラーバジェットを作り出す小手先の対応であり、ユーザー体験の低下を許容することになるため根本的解決にはなりません。Orangeでは新機能の一部凍結、信頼性タスクの優先度引き上げ、デプロイへのSRE承認追加という「均衡の取れた制限」が適切です。


Q4. SLO依存関係の設計

サービスAがサービスBに同期的にクリティカル依存している場合、SLO設計として正しいものはどれですか?

  • A. サービスAとサービスBのSLOは同じ値に設定すべき
  • B. サービスAのSLOはサービスBのSLO以下に設定すべき(B ≧ A)
  • C. サービスAのSLOはサービスBのSLOより高く設定すべき(A > B)
  • D. 依存関係はSLO設計に影響しないため、独立に設定してよい
答えを見る

正解: B

同期的にクリティカル依存している場合、上流サービス(A)の可用性は下流サービス(B)の可用性に制約されます。AはBがダウンしている間、正常に動作できません。したがって、Aの実際の可用性はBの可用性を超えることはできず、AのSLOはBのSLO以下に設定する必要があります(B ≧ A)。同じ値(A)では依存による劣化分のマージンがなく、A > B(C)は原理的に達成不可能です。依存関係を無視(D)するとSLOの不整合が発生します。


Q5. SLOレビューの成熟度

SLOレビュープロセスがLevel 3(データ駆動)に達している状態の特徴として、最も適切なものはどれですか?

  • A. SLOを設定し、ダッシュボードで表示しているが、定期的なレビューは行っていない
  • B. 週次レビューを実施しているが、アクションアイテムの実施率が低く形骸化している
  • C. レビュー→改善アクション→効果測定のサイクルが回り、SLO調整がデータに基づいて実施されている
  • D. 全てのSLOレポートとアラートが完全に自動化され、人間の介入が不要になっている
答えを見る

正解: C

Level 3(データ駆動)の特徴は「レビュー→アクション→効果測定のサイクルが回っている」ことです。定期レビューは実施しているが改善につながらない(B)のはLevel 2(定期的)の状態です。ダッシュボードはあるがレビューなし(A)はLevel 1(アドホック)以前の状態です。完全自動化(D)はLevel 4(自動化)の特徴ですが、人間の介入が「不要」というのは誤りで、Level 4でも戦略的判断には人間の関与が必要です。


結果

合格(4問以上正解)

Step 3の内容をよく理解しています。SLI/SLO体系の設計、エラーバジェットポリシー、レビュープロセスの知識を身につけました。次のStep 4「予防的インシデント検知を実現しよう」に進みましょう。

不合格(3問以下正解)

Step 3の内容を復習しましょう。特に以下のポイントを重点的に確認してください:

  • SLOの基本原則 — 100%にしない理由とエラーバジェットの関係
  • ジャーニーSLO — End-to-End品質保証の意義と依存関係の掛け算
  • エラーバジェットポリシー — 4段階の段階的アクションの設計
  • SLO依存関係 — 上流/下流サービスのSLO整合性ルール

推定所要時間: 30分