ストーリー
田
田中VPoE
オンコール体制の仕組みを一通り設計した。だが、仕組みを作っただけでは不十分だ。体制が「健全に」機能し続けているかを継続的に監視する必要がある
田
田中VPoE
そうだ。うちの運用チームの離職率30%は、オンコール負荷の偏りが原因の一つだ。誰かに負荷が集中していないか、アラートノイズが多すぎないか、燃え尽きの兆候はないか — これらを定量的に管理する
あなた
メトリクスで健全性を可視化する、ということですね
あ
田
田中VPoE
その通り。「なんとなく大丈夫」ではなく、データに基づいて健全性を判断する。SLOでサービスの健全性を測るように、オンコール体制の健全性もメトリクスで測る
オンコール健全性メトリクス
負荷メトリクス
| メトリクス | 計算式 | 健全基準 | 危険信号 |
|---|
| ページ数/シフト | 1シフトあたりのアラート数 | ≤ 2件/日 | > 5件/日 |
| 夜間対応数/月 | 22:00-07 | ≤ 2回/月/人 | > 4回/月/人 |
| 対応時間/シフト | 実際にインシデント対応に費やした時間 | ≤ 4時間/週 | > 8時間/週 |
| 連続対応なし日数 | アラートなしのシフト日数 | ≥ 50% | < 30% |
品質メトリクス
| メトリクス | 計算式 | 健全基準 | 危険信号 |
|---|
| MTTA(応答時間) | アラート→応答の時間 | ≤ 5分 | > 15分 |
| MTTR(復旧時間) | 検知→復旧の時間 | ≤ 1時間 | > 4時間 |
| アクション率 | 対応が必要だったアラート/全アラート | ≥ 80% | < 50% |
| 自動復旧率 | 自動で復旧したインシデント/全インシデント | ≥ 30% | < 10% |
| エスカレーション率 | エスカレーションされたインシデント/全インシデント | ≤ 20% | > 40% |
チーム健全性メトリクス
| メトリクス | 計測方法 | 健全基準 |
|---|
| 負荷の偏り | Gini係数 or 標準偏差 | 均等に分散 |
| 対応スキルの分布 | 各メンバーが対応可能なサービス数 | 全員が2サービス以上 |
| 新人の成長 | シャドー期間後の単独対応成功率 | 3ヶ月以内に80%以上 |
| チーム満足度 | 四半期アンケート(1-5スコア) | ≥ 3.5 |
燃え尽き防止
早期発見のシグナル
| シグナル | 説明 | 対応 |
|---|
| 応答時間の増加 | MTTAが徐々に長くなる | 負荷の確認と分散 |
| アラートの見逃し | Secondaryへのエスカレーション増加 | 負荷軽減、休息の確保 |
| 改善活動の停滞 | ポストモーテムのアクションアイテムが放置 | エンジニアリング時間の確保 |
| チーム内の不満 | 1on1での不満表明、オンコール回避行動 | 補償の見直し、体制の改善 |
負荷管理のプラクティス
| プラクティス | 説明 |
|---|
| アラートバジェット | チームあたりのアラート上限を設定(例: 週10件以下) |
| ノイズハント | 月次でアクション不要だったアラートを特定し削除 |
| トイルスプリント | 四半期ごとにトイル削減に集中するスプリントを実施 |
| オンコール休暇 | 年に1回、2週間のオンコール免除期間を各メンバーに付与 |
| 負荷レビュー | 月次で負荷の偏りをチームで確認 |
継続的改善サイクル
改善フレームワーク
1. 計測(Measure)
└── オンコール健全性メトリクスの収集
2. 分析(Analyze)
└── トレンド分析、ボトルネック特定
3. 改善(Improve)
├── アラート閾値の調整
├── ランブックの追加・更新
├── 自動化の推進
└── ローテーションの見直し
4. 検証(Verify)
└── 改善前後のメトリクス比較
改善の優先順位
| 優先度 | 対象 | 期待効果 |
|---|
| 高 | ノイズアラートの削除 | 即座に負荷軽減 |
| 高 | 頻発するインシデントの根本対策 | 中期的な負荷軽減 |
| 中 | ランブックの自動化 | 対応時間の短縮 |
| 中 | ローテーションの最適化 | 負荷の均等化 |
| 低 | 新規ツール導入 | 長期的な効率改善 |
まとめ
| ポイント | 内容 |
|---|
| 3種のメトリクス | 負荷、品質、チーム健全性の3軸で管理 |
| 燃え尽き防止 | 早期シグナルの検知とアラートバジェットの設定 |
| 継続的改善 | 計測→分析→改善→検証のサイクルを回す |
チェックリスト
次のステップへ
次は「演習:オンコール体制を設計しよう」です。ここまで学んだ知識を活かして、実際にオンコール体制を設計しましょう。
推定読了時間: 30分