クイズの説明
Month 4「SREプラクティスを導入しよう」の総合理解度を確認します。全10問、80%(8問)以上正解で合格です。
問題
Q1. SREの基本的な考え方として最も適切なものはどれですか?
- A) 信頼性100%を目指すこと
- B) エラーバジェットの範囲内で信頼性とイノベーションのバランスを取ること
- C) 障害が起きないシステムを構築すること
- D) 運用を全て自動化すること
答えを見る
正解: B
SREは100%の信頼性を目指すのではなく、エラーバジェットという概念で「許容可能な障害の量」を定義し、その範囲内で開発速度(イノベーション)と信頼性のバランスを取ります。
Q2. SLI、SLO、SLAの関係として正しいものはどれですか?
- A) SLA > SLO > SLI(SLAが最も具体的)
- B) SLI(指標)→ SLO(目標)→ SLA(契約)
- C) 全て同じ意味の異なる表記
- D) SLIは外部向け、SLOとSLAは内部向け
答えを見る
正解: B
SLI(Service Level Indicator)は具体的な計測指標、SLO(Service Level Objective)はSLIに基づく内部目標、SLA(Service Level Agreement)はSLOを含む顧客との契約です。
Q3. オブザーバビリティの3本柱はどれですか?
- A) ログ、メトリクス、トレース
- B) 監視、アラート、ダッシュボード
- C) CPU、メモリ、ディスク
- D) レイテンシー、スループット、エラー率
答えを見る
正解: A
オブザーバビリティの3本柱は、ログ(何が起きたか)、メトリクス(どれくらいの規模で起きているか)、トレース(どのように伝搬したか)です。
Q4. Prometheusのメトリクスタイプでないものはどれですか?
- A) Counter
- B) Gauge
- C) Histogram
- D) String
答えを見る
正解: D
Prometheusの主なメトリクスタイプはCounter(累積値)、Gauge(現在値)、Histogram(分布)、Summary(分位数)の4つです。String型は存在しません。
Q5. エラーバジェットが枯渇した場合、最も適切な対応はどれですか?
- A) SLOの目標値を下げる
- B) 新機能開発を一時停止し、信頼性改善に注力する
- C) エラーバジェットを無視して開発を続ける
- D) SLAを顧客に再交渉する
答えを見る
正解: B
エラーバジェット枯渇時は、エラーバジェットポリシーに従い新機能開発を制限または停止し、信頼性改善にリソースを集中させます。これがSREにおけるフィードバックメカニズムです。
Q6. 分散トレーシングの主な目的はどれですか?
- A) 各サーバーのCPU使用率を監視する
- B) マイクロサービス間のリクエストの伝搬経路とレイテンシを可視化する
- C) ログの集約と検索を行う
- D) アラートの設定を管理する
答えを見る
正解: B
分散トレーシング(Jaeger、Zipkin、OpenTelemetry等)は、マイクロサービスアーキテクチャでリクエストが複数サービスを横断する際の伝搬経路とレイテンシの内訳を可視化します。
Q7. トイル(Toil)の定義として正しいものはどれですか?
- A) 全ての運用業務
- B) 手動、繰り返し、自動化可能で、長期的な価値を生まない作業
- C) 障害対応全般
- D) ドキュメント作成業務
答えを見る
正解: B
トイルは、手動的、繰り返し、自動化可能、戦術的(長期的価値なし)、スケールに比例して増加する作業です。SREはトイルを50%以下に抑え、エンジニアリング業務に時間を使うことを推奨します。
Q8. RED メソッドが対象とするのはどれですか?
- A) データベースの監視
- B) リクエスト駆動のサービス(Rate, Errors, Duration)
- C) バッチ処理の監視
- D) ネットワーク機器の監視
答えを見る
正解: B
RED(Rate, Errors, Duration)メソッドは、リクエスト駆動のサービス(API、Webサービス等)を監視するためのフレームワークです。リソース監視にはUSE(Utilization, Saturation, Errors)を使います。
Q9. ポストモーテムで最も重要な成果物はどれですか?
- A) 責任者の特定
- B) 具体的で追跡可能なアクションアイテム
- C) 障害の詳細なログ
- D) 経営層への報告書
答えを見る
正解: B
ポストモーテムの最も重要な成果物は、再発防止のための具体的なアクションアイテムです。担当、期限、優先度が明確で、完了まで追跡されることが重要です。
Q10. カオスエンジニアリングを実施する前提条件として最も重要なものはどれですか?
- A) 最新のインフラストラクチャを使用していること
- B) 定常状態の仮説を立て、影響を制御できる環境があること
- C) 全サービスがコンテナ化されていること
- D) 専用のカオスエンジニアリングチームがあること
答えを見る
正解: B
カオスエンジニアリングは科学的手法に従い、まず正常な状態(定常状態)の仮説を立て、実験の影響を制御・最小化できる環境で行います。ブラストラディウス(影響範囲)の管理が前提です。
結果
8問以上正解の場合
合格です。 Month 4のSREプラクティスをしっかり習得しました。次のMonth 5「AIシステムを本番投入しよう」に進みましょう。
7問以下の場合
もう少し復習しましょう。 SREの原則、SLI/SLO、オブザーバビリティ、インシデント管理の各分野を復習してください。