QUIZ 30分

クイズの説明

Month 6「組織の可観測性基盤を構築しよう」の全範囲を対象とした卒業クイズです。成熟度評価、プラットフォーム設計、SLI/SLO体系、予防的インシデント検知、可観測性文化の全領域から出題します。

合格ライン: 80%(10問中8問正解)


問題

Q1. 可観測性の本質

「モニタリング」と「可観測性」の最も本質的な違いはどれですか?

  • A. モニタリングはオープンソースツールを使い、可観測性は商用ツールを使う
  • B. モニタリングはメトリクスのみ扱い、可観測性はログとトレースも扱う
  • C. モニタリングは事前に定義した問いに答え、可観測性は未知の問いにも探索的に対応できる状態を作る
  • D. モニタリングはリアルタイムではなく、可観測性はリアルタイムである
答えを見る

正解: C

モニタリングは「既知の既知」に対応します。「CPU使用率が90%を超えたらアラート」のように、事前に定義した問いに対して回答します。一方、可観測性はシステムの内部状態を外部出力から推測可能にすることで、「なぜこの特定のユーザーだけレイテンシが高いのか」のような事前に想定していなかった問いにも探索的に対応できる状態を作ります。ツールの種類(A)やデータタイプの範囲(B)、リアルタイム性(D)は本質的な違いではありません。


Q2. 成熟度評価のアプローチ

可観測性の成熟度評価において、「定量的データ収集」「定性的ヒアリング」「インシデント振り返り」の3つのアプローチを組み合わせる最も重要な理由はどれですか?

  • A. 3つ以上の手法を使うことが社内規定で義務付けられているため
  • B. 各アプローチが異なる種類の情報を補完し合い、客観的な実態と主観的な課題認識の両方を把握できるため
  • C. 3つの手法の平均値を取ることで、より正確なスコアが算出できるため
  • D. 経営層への報告書のページ数を増やし、説得力を高めるため
答えを見る

正解: B

定量的データ収集(テレメトリカバレッジ、MTTR等)は客観的な数値を提供しますが、その背景にある組織的な課題は見えません。定性的ヒアリングはチームの生の声を拾えますが、主観的なバイアスがあります。インシデント振り返りは実際の障害対応から具体的なギャップを抽出できます。3つを組み合わせることで、「何が」「なぜ」「具体的にどう」問題なのかを網羅的に把握でき、的確な改善策の策定が可能になります。


Q3. OpenTelemetryの価値

組織の可観測性計装標準としてOpenTelemetryを採用する最大の戦略的メリットはどれですか?

  • A. 無料で利用できるため、ライセンスコストがゼロになること
  • B. ベンダーに依存せず、計装コードを変更せずにバックエンドを自由に選択・変更できること
  • C. 他のどの計装ライブラリよりもパフォーマンスが高いこと
  • D. 設定なしで全てのアプリケーションを完全に自動計装できること
答えを見る

正解: B

OpenTelemetryの最大の戦略的メリットはベンダー非依存性(Vendor Neutrality)です。計装コードはOpenTelemetry標準で統一し、バックエンド(Datadog、Grafana Cloud、New Relic等)は自由に選択・変更できます。これによりベンダーロックインを回避し、将来のツール移行やコスト最適化が容易になります。OSSであるため無料ですが(A)、バックエンドは有料の場合が多いです。パフォーマンス(C)は他と同等であり、完全自動計装(D)は設定が必要です。


Q4. SLO階層設計

サービスAがサービスBとサービスCに同期的にクリティカル依存している場合(A→B、A→C の直列依存)、サービスBのSLOが99.95%、サービスCのSLOが99.9%のとき、サービスAのSLOの理論的上限に最も近い値はどれですか?

  • A. 99.95%(最も高いSLOと同じ)
  • B. 99.925%(BとCのSLOの平均)
  • C. 99.85%(BとCのSLOの積に近い値)
  • D. 99.9%(最も低いSLOと同じ)
答えを見る

正解: C

直列依存の場合、上流サービスの可用性は下流サービスの可用性の「積」で制約されます。サービスAの理論的上限 = 0.9995 × 0.999 = 0.99850(99.85%)。したがってサービスAのSLOは99.85%以下に設定する必要があります。最も高いSLO(A)や最も低いSLO(D)と同じ値にはならず、平均(B)でもありません。依存関係が増えるほど理論的上限は下がるため、依存数の多いサービスほどSLOのマージン確保が重要です。


Q5. エラーバジェットポリシー

エラーバジェットがRed(残量0-25%)に到達したTier 1サービスに対して、エラーバジェットポリシーで規定すべき最も重要なアクションはどれですか?

  • A. SLOの値を緩和してバジェットの余裕を作り出す
  • B. 全機能フリーズとし、信頼性改善のみ許可。VPoEへの報告とポストモーテム必須
  • C. オンコール担当者にのみ通知し、次のスプリント計画で対応を検討する
  • D. 顧客に対してSLA違反の可能性を事前に通知する
答えを見る

正解: B

Redステージ(残量0-25%)はSLA違反リスクが最も高い状態であり、最も厳格なアクションが求められます。全機能フリーズ(信頼性改善デプロイのみ許可)、VPoEへの即時報告、バジェット枯渇の全原因についてポストモーテム実施が適切です。SLOの緩和(A)は問題の先送りであり根本解決になりません。次スプリントまで待つ(C)ではバジェット枯渇のリスクに対して遅すぎます。顧客通知(D)はSLA違反が確定した場合の対応であり、エラーバジェットポリシーの主要アクションではありません。


Q6. 異常検知の手法選択

金曜日の夜にトラフィックが通常の2倍に増加するECサイトで、「通常の金曜日のトラフィック増加」と「DDoS攻撃による異常なトラフィック増加」を区別したい場合、最も適切な手法はどれですか?

  • A. 固定閾値アラート(リクエスト数 > 10,000/s)
  • B. 直前1時間の移動平均との比較
  • C. 季節性分解により週次パターンを除外した残差ベースの異常検知
  • D. 全リクエスト数の合計を日次で比較
答えを見る

正解: C

季節性分解(STL分解)は時系列データをトレンド + 季節性 + 残差に分解します。「金曜夜のトラフィック2倍増加」は週次の季節性コンポーネントとして学習されるため、通常の金曜パターンからの逸脱のみが残差として検出されます。固定閾値(A)は金曜夜に毎回誤報します。1時間の移動平均(B)は金曜夕方からの急増を異常と誤判定します。日次合計の比較(D)は粒度が粗すぎてリアルタイム検知ができません。


Q7. アラート設計

マルチウィンドウバーンレートアラートにおいて「6時間バーンレート > 6 AND 30分バーンレート > 6」のように長短2つのウィンドウを組み合わせる最大の利点はどれですか?

  • A. アラートの検知速度(MTTD)が2倍に向上する
  • B. 長いウィンドウで全体傾向を捉え、短いウィンドウで問題継続中を確認し、既に収束した問題での誤報を防ぐ
  • C. 2つのウィンドウを使うことでバーンレートの計算精度が向上する
  • D. 長いウィンドウと短いウィンドウの両方でデータを二重保存し、データ損失を防ぐ
答えを見る

正解: B

マルチウィンドウの最大の利点はアラートの精度(Precision)向上です。長いウィンドウ(6時間)だけだと、過去のスパイクが既に収束していてもアラートが残り続けます。短いウィンドウ(30分)をAND条件で追加することで、「問題が現在も継続中」であることを確認でき、既に自然回復した問題での誤報(False Positive)を大幅に削減できます。検知速度の向上(A)ではなく精度の向上が目的であり、計算精度(C)やデータ保存(D)とは無関係です。


Q8. AIOps導入

AIOpsの4つの柱(ノイズ削減、根本原因分析、予測、自動修復)を組織に段階的に導入する場合、最初に取り組むべき領域とその理由として最も適切なものはどれですか?

  • A. 自動修復から始めるべき。障害の自動解決が最も大きなビジネス価値を持つため
  • B. ノイズ削減から始めるべき。ROIが最も高く即効性があり、他の柱の基盤となるデータ品質改善に寄与するため
  • C. 予測から始めるべき。未来の障害を防ぐことが最も戦略的価値が高いため
  • D. 全ての柱を同時に始めるべき。AIOpsの効果は4つの柱の相乗効果で発揮されるため
答えを見る

正解: B

ノイズ削減は最もROIが高く、即効性がある領域です。偽陽性率94%のアラートを大幅に削減するだけで、オンコール担当者の負荷が劇的に改善し、アラートシステムへの信頼が回復します。さらに、ノイズ削減の過程でアラートの品質向上とデータの整理が進み、根本原因分析、予測、自動修復の基盤が整います。自動修復(A)は効果が大きいですが信頼性の確保に時間がかかり、予測(C)は十分なデータが必要です。全て同時(D)はリソースが分散し中途半端になります。


Q9. 非難なきポストモーテム

非難なきポストモーテム(Blameless Postmortem)において、「Aさんがデプロイコマンドを誤って実行したことが原因」というインシデントを分析する際、最も適切なアプローチはどれですか?

  • A. Aさんの不注意を指摘し、同様のミスを繰り返さないよう注意喚起する
  • B. Aさんの名前を伏せて「あるメンバーが誤操作した」と記録する
  • C. 「なぜ誤ったデプロイコマンドの実行をシステムが防げなかったか」に焦点を当て、デプロイプロセスのガードレール(確認ステップ、自動検証等)の導入を検討する
  • D. デプロイ作業を特定の上級エンジニアのみに制限する
答えを見る

正解: C

非難なきポストモーテムの核心は「人ではなくシステムに焦点を当てる」ことです。「Aさんが誤操作した」は事実ですが、本質的な問いは「なぜシステムがその誤操作を許したか」です。デプロイの確認ステップ、自動検証、カナリアデプロイ、ロールバック機構など、システム的なガードレールを導入することで、誰が操作しても安全なプロセスを構築します。個人の注意喚起(A)や名前の伏せ方(B)は表面的な対応であり、作業の制限(D)はボトルネックと属人化を生みます。


Q10. 可観測性戦略の投資判断

可観測性への投資を経営層に説明する際、最も効果的なアプローチはどれですか?

  • A. 最新のオブザーバビリティ技術のトレンドを紹介し、技術的な先進性をアピールする
  • B. MTTR短縮による人件費削減、SLA違反防止による返金リスク軽減、ツール統合によるコスト削減を定量的に示し、投資回収期間を明確にする
  • C. 競合他社が全て可観測性プラットフォームを導入済みであることを強調し、危機感を煽る
  • D. SREチームのモチベーション向上を最大の投資理由として説明する
答えを見る

正解: B

経営層への投資説明では「ビジネスの言葉」で語ることが最も重要です。MTTR短縮(3.5時間→30分)による人件費削減、SLA違反リスクの低減(年間600万円のリスク回避)、ツール統合によるライセンスコスト削減(年間530万円)を定量的に算出し、総投資額に対する回収期間(約13ヶ月)を明確に示すことで、経営判断の材料を提供できます。技術トレンド(A)は判断材料にならず、危機感(C)は根拠が弱く、モチベーション(D)は副次的な効果です。


結果

合格(8問以上正解)

おめでとうございます。Month 6「組織の可観測性基盤を構築しよう」の全領域を理解しています。

あなたは以下の能力を身につけました:

  • 組織の可観測性成熟度を評価し、改善戦略を策定できる
  • 統合可観測性プラットフォームを設計できる
  • SLI/SLO体系を階層的に設計し、エラーバジェットポリシーを組織に展開できる
  • 予防的インシデント検知システムを設計し、AIOpsの導入計画を策定できる
  • 可観測性文化の醸成計画を策定し、組織変革を推進できる
  • 全領域を統合した可観測性戦略書を作成し、経営層の投資判断を支援できる

「可観測性は”ツールの導入”ではなく”組織の能力”だ。技術、プロセス、文化の3つを統合した戦略的アプローチで、組織全体の信頼性とエンジニアリング力を向上させる — それが可観測性戦略の本質だ」 — 田中VPoE

不合格(7問以下正解)

Month 6の内容を復習しましょう。特に以下のポイントを重点的に確認してください:

  • Step 1 — モニタリングと可観測性の違い、成熟度評価の手法
  • Step 2 — OpenTelemetryの戦略的価値、データティアリング
  • Step 3 — SLO階層設計の依存関係計算、エラーバジェットポリシーの段階設計
  • Step 4 — 異常検知の季節性対応、マルチウィンドウバーンレート、AIOps導入順序
  • Step 5 — 非難なきポストモーテム、オーナーシップの原則
  • Step 6 — 経営層への投資説明、ROI計算

推定所要時間: 30分