ストーリー
田
田中VPoE
オンコール体制を設計した。次は障害が起きた「後」の話だ。ポストモーテム — 障害の振り返りだ
田
田中VPoE
従来の障害報告書とは根本的に違う。うちの会社では障害が起きると「犯人探し」が始まる。「誰がこのコードを書いた?」「誰がレビューを通した?」。この文化を変えないとSREは機能しない
田
田中VPoE
その通りだ。障害を隠す、報告を遅らせる、リスクを取らなくなる — すべて「責められる」恐怖から生まれる。ブレームレス(blame-less)文化は、SREの根幹だ
ブレームレス文化の本質
なぜブレームレスが必要か
| 「責める」文化の結果 | ブレームレス文化の結果 |
|---|
| 障害を隠す | 障害を素早く報告する |
| 報告を最小限にする | 詳細な情報を共有する |
| リスクを避ける(イノベーション停滞) | 適切なリスクを取れる |
| 個人の注意力に依存 | システムの改善に投資 |
| 「誰のせいか」を追求 | 「なぜ起きたか」を追求 |
ブレームレスの誤解
| 誤解 | 正しい理解 |
|---|
| 「誰も責任を取らなくてよい」 | 個人を責めないが、組織的な改善責任は明確にする |
| 「何をしても許される」 | 意図的な過失や繰り返しの不注意は別途対処する |
| 「原因を追及しない」 | 原因は徹底的に追及する。ただし「人」ではなく「システム」に着目する |
| 「甘い文化」 | むしろ厳しい。問題の根本原因を徹底的に掘り下げる |
ブレームレスの実践
言い換えのフレームワーク
| Blame(責める) | Blameless(学ぶ) |
|---|
| 「Aさんがテストを忘れた」 | 「テストが実行されずにデプロイされる仕組みだった」 |
| 「Bさんの設定ミス」 | 「設定ミスを検出できる仕組みがなかった」 |
| 「Cさんがレビューで見落とした」 | 「レビュープロセスでこのタイプの問題を検出できない」 |
| 「なぜ確認しなかったのか」 | 「確認が必要だと気づける仕組みがなかった」 |
システム思考
ブレームレスの思考プロセス:
「誰が間違えたか?」
→ 「なぜその人がそのアクションを取ったか?」
→ 「そのアクションが合理的に見える状況とは?」
→ 「システムがどう改善されればその状況を防げたか?」
例:
「山田さんが本番DBに直接クエリを実行して障害」
→ 「なぜ本番DBに直接アクセスしたか?」
→ 「テスト環境にデータがなく、本番で確認するしかなかった」
→ 「テスト環境のデータ同期を自動化する」
→ 「本番DBへの直接アクセスを技術的に制限する」
組織にブレームレスを根付かせる
リーダーシップの役割
| プラクティス | 説明 |
|---|
| リーダーが率先して示す | VPoE/CTOがポストモーテムで「システムの問題」に焦点を当てる |
| 自分の失敗を共有する | リーダーが過去の自分の障害経験をオープンに語る |
| 報告者を称賛する | 障害を早期報告した人を明確に称賛する |
| 犯人探しを止める | 会議中に「誰が」という質問が出たら「何が」に言い換える |
段階的な導入
| フェーズ | 期間 | 活動 |
|---|
| 啓蒙 | 1-2ヶ月 | ブレームレスの概念を全社に説明、事例共有 |
| 実践開始 | 3-4ヶ月 | SREチーム主導で最初のブレームレスポストモーテム実施 |
| 定着 | 5-6ヶ月 | 開発チームにも展開、ポストモーテムを定期実施 |
| 文化化 | 7ヶ月以降 | 全チームが自律的にブレームレスポストモーテムを実施 |
抵抗への対処
| 抵抗 | 発言例 | 対処 |
|---|
| 管理職 | 「責任を取る人がいないと困る」 | 個人責任と組織改善の違いを説明 |
| ベテラン | 「昔からこうやってきた」 | データで従来手法の限界を示す |
| 被害者意識 | 「自分のチームばかり障害を起こす」 | システムの複雑さの問題として再フレーム |
まとめ
| ポイント | 内容 |
|---|
| ブレームレスの本質 | 個人を責めず、システムの改善に焦点を当てる |
| 誤解の排除 | 「責任放棄」ではなく「組織的学習」のための文化 |
| 導入の鍵 | リーダーシップが率先して示すことが不可欠 |
チェックリスト
次のステップへ
次は「ポストモーテムの書き方」です。ブレームレスの原則に基づいた、効果的なポストモーテムドキュメントの作成方法を学びましょう。
推定読了時間: 30分