クイズの説明
Step 1「SREの原則を理解する」で学んだ内容の理解度を確認します。全8問、80%(7問)以上正解で合格です。
問題
Q1. SRE(Site Reliability Engineering)の定義として最も適切なものはどれですか?
- A) システム管理者がサーバーを監視する手法
- B) ソフトウェアエンジニアリングの手法で運用の課題を解決するプラクティス
- C) DevOpsツールチェインの別名
- D) 障害ゼロを目指す品質管理手法
答えを見る
正解: B
SREはGoogleのBen Treynor Slossが提唱した「ソフトウェアエンジニアにオペレーションの設計を依頼したときに起こること」です。従来の手順書ベースのシステム管理ではなく、エンジニアリングのアプローチで信頼性の課題を解決します。DevOpsのツールチェインとは異なり、文化とプラクティスの体系です。また、100%の信頼性は目指しません。
Q2. SREの50%ルールについて正しい説明はどれですか?
- A) SREチームの50%は開発チーム出身であるべき
- B) SREの業務時間の50%以上をエンジニアリング作業に充てる
- C) システムの可用性を50%以上に維持する
- D) トイルの50%を毎月削減する
答えを見る
正解: B
50%ルールは、SREエンジニアの業務時間の最大50%を運用作業(トイル)に、残りの50%以上をエンジニアリング作業(自動化、ツール開発、アーキテクチャ改善等)に充てるというルールです。これにより、運用の負のスパイラルを防ぎ、継続的な改善を推進します。
Q3. 可用性99.9%のサービスの月間許容ダウンタイムに最も近いのはどれですか?
- A) 約4分
- B) 約43分
- C) 約4時間
- D) 約43時間
答えを見る
正解: B
99.9%の可用性の月間ダウンタイムは、30日 × 24時間 × 60分 × 0.001 = 43.2分です。99.99%なら約4.3分、99%なら約7.2時間、90%なら約72時間になります。この「Ninesテーブル」はSREエンジニアが暗記しておくべき基本知識です。
Q4. エラーバジェットが解決する最も本質的な問題はどれですか?
- A) サーバーのコスト削減
- B) 開発スピードと信頼性のバランス(トレードオフ)
- C) セキュリティ脆弱性の管理
- D) チームメンバーの評価基準
答えを見る
正解: B
エラーバジェットは「100% - SLO目標」で計算される「使える失敗の予算」です。バジェットが残っていればリリースを加速でき、消費が進めば変更を制限する — この仕組みにより、開発チームと運用チームの対立を客観的なデータで解消し、イノベーション速度と信頼性の最適なバランスを実現します。
Q5. MTTRの改善に最も直接的に寄与する施策はどれですか?
- A) コードレビューの厳格化
- B) ランブック整備と自動ロールバック機能の実装
- C) 新機能の開発凍結
- D) サーバースペックの向上
答えを見る
正解: B
MTTR(Mean Time To Recovery)は障害発生から復旧までの平均時間です。ランブック(対応手順書)を整備することで診断時間を短縮し、自動ロールバック機能で修復時間を短縮できます。コードレビューの厳格化はMTBF(障害間隔)の改善に寄与し、開発凍結やスペック向上はMTTR改善への直接的な効果は限定的です。
Q6. トイルの定義に当てはまらないものはどれですか?
- A) 手動的で繰り返し実施する作業
- B) サービスの成長に比例して増加する作業
- C) 新しいモニタリングダッシュボードの設計と構築
- D) 自動化が可能な戦術的な作業
答えを見る
正解: C
モニタリングダッシュボードの設計と構築は、創造的かつ戦略的な作業であり、永続的な価値を持つエンジニアリング作業です。トイルの6つの特徴(手動的、繰り返し、自動化可能、戦術的、O(n)でスケール、永続的価値なし)のいずれにも該当しません。
Q7. バーンレートが14.4のとき、30日分のエラーバジェットが完全に消費されるまでの期間に最も近いのはどれですか?
- A) 約2日
- B) 約5日
- C) 約10日
- D) 約14日
答えを見る
正解: A
バーンレート14.4は「通常の14.4倍の速度でエラーバジェットを消費している」ことを意味します。30日 / 14.4 ≒ 2.08日で30日分のバジェットを使い切ります。これはMulti-Window Multi-Burn-Rateアラートの最高レベル(Critical)に相当し、即座にオンコール呼び出しが必要な状態です。
Q8. SRE導入において最初に取り組むべきことはどれですか?
- A) カオスエンジニアリングの実施
- B) SLI/SLOの定義と基本的なモニタリングの整備
- C) フルオートメーションの完全自動化
- D) 全エンジニアのオンコールローテーション参加
答えを見る
正解: B
SRE導入のロードマップでは、まず「何を測定し、何を目標とするか」を定義することが最優先です。SLI/SLOの定義と基本的なモニタリングがなければ、エラーバジェットも計算できず、改善の効果も測定できません。カオスエンジニアリングや完全自動化は後のフェーズで取り組むべき事項です。
結果
7問以上正解の場合
合格です。 SREの基本原則をしっかり理解しています。SREの定義、信頼性メトリクス、エラーバジェット、トイル削減 — これらはSREプラクティス全体の土台です。
「基礎が固まったね。次のステップでは、SLI/SLOの設計に進む。サービスレベルをどう定義し、どう計測するか — SREの中核スキルを身につけよう」 — 佐藤CTO
6問以下の場合
もう少し復習しましょう。 Step 1のレッスンを再度読み返し、特に間違えた問題の関連箇所を重点的に復習してください。
- Q1-Q2を間違えた場合 → Step 1-1「SREとは何か」を復習
- Q3を間違えた場合 → Step 1-2「信頼性エンジニアリングの基礎」を復習
- Q4-Q5を間違えた場合 → Step 1-3「エラーバジェットの考え方」を復習
- Q6-Q8を間違えた場合 → Step 1-4「トイルの削減」を復習