クイズの説明
Step 4「予防的インシデント検知を実現しよう」の理解度を確認します。異常検知、アラート設計、AIOps、インシデント相関分析について問います。
合格ライン: 80%(5問中4問正解)
問題
Q1. 異常検知の手法選択
毎週月曜日にトラフィックが増加する傾向があるWebサービスで、「通常の月曜日の増加」と「本当の異常」を区別して検知したい場合、最も適切な異常検知手法はどれですか?
- A. 固定閾値(例: リクエスト数 > 10,000/s でアラート)
- B. 単純移動平均からの標準偏差ベースの異常検知
- C. 季節性分解(STL分解)による残差ベースの異常検知
- D. 直前5分間の値との比較による変化率検知
答えを見る
正解: C
季節性分解(STL分解)は時系列データをトレンド・季節性・残差に分解します。「毎週月曜日のトラフィック増加」は季節性コンポーネントとして学習されるため、通常の月曜日パターンからの逸脱のみが残差として検出されます。固定閾値(A)は曜日変動を考慮できず月曜日に毎回誤報します。単純移動平均(B)も短期の平均では週次の季節性を捉えられません。変化率検知(D)は月曜日の急増を毎週異常と判定してしまいます。
Q2. マルチウィンドウバーンレートアラート
バーンレートアラートで「6時間バーンレート > 6 AND 30分バーンレート > 6」のように2つのウィンドウを組み合わせる理由として、最も適切なものはどれですか?
- A. 2つのウィンドウを使うことで、バーンレートの計算精度が2倍になるため
- B. 短いウィンドウだけでは検知が遅すぎ、長いウィンドウだけでは検知が速すぎるため
- C. 長いウィンドウで全体的な傾向を捉えつつ、短いウィンドウで「問題が現在も継続中」であることを確認し、既に収束した問題での誤報を防ぐため
- D. PagerDutyの仕様で2つ以上の条件を設定する必要があるため
答えを見る
正解: C
マルチウィンドウの目的は精度(Precision)の向上です。長いウィンドウ(6時間)だけだと、6時間前に発生した短時間のスパイクが既に収束していてもアラートが残り続けます。短いウィンドウ(30分)を追加条件にすることで、「過去6時間で高バーンレートを記録した」AND「直近30分でも問題が継続中」の両方を満たす場合のみ発報します。計算精度(A)とは無関係であり、検知速度のトレードオフ(B)でもなく、ツールの仕様制約(D)でもありません。
Q3. アラート設計の原則
アラート設計において「症状ベース(Symptom-based)」でアラートを設計する理由として、最も適切なものはどれですか?
- A. 症状ベースのアラートは原因ベースのアラートよりも実装が簡単だから
- B. ユーザーが体験している影響を直接反映するため、真に対応が必要な状況のみを検知できるから
- C. 症状ベースのアラートは偽陽性が完全にゼロになるから
- D. 原因ベースのアラートはツールがサポートしていないから
答えを見る
正解: B
症状ベースのアラートは「ユーザーが影響を受けているか」を直接検知します。例えば「CPU使用率が80%超」(原因ベース)ではなく「エラーレートが0.5%超」(症状ベース)でアラートすることで、実際にユーザーに影響がある場合のみ通知されます。CPU使用率が高くてもユーザーに影響がなければ対応不要であり、逆にCPUが正常でもアプリケーションバグでエラーが発生していれば対応が必要です。実装の簡易性(A)が理由ではなく、偽陽性ゼロ(C)は不可能です。原因ベースもツールで実装可能です(D)。
Q4. AIOpsの導入優先順位
AIOpsの4つの柱(ノイズ削減、根本原因分析、予測、自動修復)を組織に導入する際、最初に取り組むべき領域とその理由として、最も適切なものはどれですか?
- A. 自動修復 — 人的対応を不要にするため最も効果が大きい
- B. 予測 — 将来の障害を防ぐことが最も価値が高い
- C. ノイズ削減 — ROIが最も高く即効性があり、他の柱の前提となるデータ品質改善にも寄与する
- D. 根本原因分析 — MTTRの短縮が最も緊急性が高い
答えを見る
正解: C
ノイズ削減は最もROIが高く、即効性がある領域です。月間3,200件のアラートを数百件に削減するだけで、オンコール担当者の負荷が劇的に改善し、本当に重要なアラートへの注意力が回復します。さらに、ノイズ削減の過程でアラートの品質向上やデータの標準化が進み、他の柱(RCA、予測、自動修復)の基盤が整います。自動修復(A)は効果が大きいですが、信頼性の確保に時間がかかり、誤った自動修復のリスクがあります。
Q5. インシデント相関分析
分散マイクロサービスシステムで、API Gatewayのエラーレートが急上昇しました。インシデント相関分析において、根本原因を特定するために最も効果的な分析の組み合わせはどれですか?
- A. API Gatewayのログだけを詳しく分析する
- B. 全サービスのCPU使用率を確認し、最もCPU使用率が高いサービスを根本原因とする
- C. 時間的相関(いつ何が最初に起きたか)、トポロジカル相関(どのサービス経路で伝播したか)、変更相関(直前にデプロイや設定変更がなかったか)を組み合わせて分析する
- D. 直近のデプロイを全てロールバックし、問題が解消したデプロイを根本原因とする
答えを見る
正解: C
インシデント相関分析は3つの観点を組み合わせることで精度が向上します。時間的相関で「最初にどのサービスで異常が始まったか」を特定し、トポロジカル相関で「異常がどのサービス経路で伝播したか」を追跡し、変更相関で「直前のデプロイや設定変更が原因ではないか」を確認します。API Gatewayのログだけ(A)では根本原因が他サービスにある場合に見落とします。CPU使用率(B)は原因の一部しか捉えられません。全ロールバック(D)は対処としては有効な場合がありますが、根本原因の「分析」手法としては乱暴であり、サービス停止時間が長期化します。
結果
合格(4問以上正解)
Step 4の内容をよく理解しています。予防的インシデント検知に必要な異常検知、アラート設計、AIOps、相関分析の知識を身につけました。次のStep 5「可観測性文化を醸成しよう」に進みましょう。
不合格(3問以下正解)
Step 4の内容を復習しましょう。特に以下のポイントを重点的に確認してください:
- 異常検知 — 季節性分解と統計ベース手法の使い分け
- アラート設計 — マルチウィンドウバーンレートと症状ベースの原則
- AIOps — 4つの柱の導入優先順位とROI
- 相関分析 — 3つの相関観点(時間的、トポロジカル、変更)の組み合わせ
推定所要時間: 30分