EXERCISE 90分

ストーリー

田中VPoE
ブレイムレス文化、ポストモーテム、学習する組織、失敗共有の仕組み — 4つの要素を学んだ。これらを統合した「失敗学習文化」の全体設計をしてもらう
あなた
Step 1から続くネクストシステム社への適用ですね
田中VPoE
そうだ。この会社は「失敗しても評価に悪影響はないと思う」のスコアが1.8/5.0と極めて低かった。実際に本番障害が起きたとき、始末書を書かされ、賞与が減額される文化がある。これを根本的に変える計画を作ってくれ
あなた
かなりの意識改革が必要ですね。抵抗も大きそうです
田中VPoE
だからこそ段階的にやる。いきなり「ブレイムレスにします!」と宣言しても信じてもらえない。小さな成功体験を積み重ねて、文化を変えていくんだ

ミッション概要

項目内容
演習タイトル失敗学習文化設計書
想定時間90分
成果物失敗学習文化設計書(現状分析 + ブレイムレス導入計画 + ポストモーテム制度 + 失敗共有の仕組み)
対象組織ネクストシステム株式会社(Step 1から継続)

前提条件

失敗対応の現状

項目現状
インシデント対応フロー障害発生 → 犯人特定 → 始末書提出 → 賞与減額
障害報告書「原因者」の氏名を記載する様式
ポストモーテム実施したことがない
失敗共有「恥」として扱われ、共有されない
同一障害の再発率40%(過去2年間のデータ)
平均報告時間障害認知から報告まで平均45分(隠そうとする傾向)
直近1年のインシデント重大障害12件、軽微な障害48件、ニアミス報告ゼロ件

追加情報

項目詳細
始末書のペナルティ年2回の始末書で賞与10%減額、3回で昇進見送り
管理職の認識「罰がないと緊張感がなくなる」が多数派
若手の声「障害を起こしたら自分のキャリアが終わる」
中途入社者の声「前職ではポストモーテムが当たり前だったのに…」
経営層の関心事同一障害の再発によるクライアントへの信頼低下

Mission 1: 現状分析とブレイムレス移行計画

要件

  1. ブレイムカルチャーのコスト算出(現状の金銭的・非金銭的コスト)
  2. ブレイムレスへの移行ロードマップ(6ヶ月間)
  3. 管理職の意識変革プログラム
解答例

ブレイムカルチャーのコスト

コスト項目算出根拠年間コスト
同一障害の再発再発率40% x 重大障害12件 x 復旧1件あたり500万円約2,400万円
報告遅延による被害拡大平均45分の遅延 x 障害60件 x 分あたり影響約800万円
離職コスト「キャリアが終わる」と感じた若手の離職増分約3,000万円
ニアミスからの学び喪失予防できたはずの障害(推定20件)約1,000万円
合計約7,200万円/年

6ヶ月移行ロードマップ

フェーズアクション
1宣言と教育経営層がブレイムレスを宣言、管理職向けワークショップ
2制度見直し始末書制度の廃止、新インシデント対応フロー策定
3パイロット3チームでブレイムレスポストモーテムを初実施
4拡大10チームに展開、Failure Fridayを開始
5全社展開全チームで新フロー運用、ニアミス報告制度開始
6定着効果測定、制度の調整、四半期失敗レビュー開始

管理職意識変革プログラム

テーマ内容
1ブレイムレスの理論スイスチーズモデル、ジャストカルチャーの講義
2先行事例の学習Google、Etsy、航空業界の事例研究
3ロールプレイ障害発生時の対応をブレイムレスで実践
4自分の経験の振り返り過去に自分が受けた非難の経験を共有

Mission 2: ポストモーテム制度の設計

要件

  1. ポストモーテムのテンプレートと運営ルール
  2. 実施基準(どのレベルのインシデントで実施するか)
  3. アクションアイテムの追跡と完了保証の仕組み
解答例

実施基準

レベル基準ポストモーテム共有範囲
P0(重大)ユーザー影響1時間以上 or データ損失必須、48時間以内全社
P1(中程度)ユーザー影響30分以上必須、1週間以内部門
P2(軽微)ユーザー影響30分未満推奨、チーム判断チーム
ニアミス障害に至らなかったがリスクあり任意、簡易版チーム

運営ルール

ルール内容
ブレイムレス原則個人名を原因として記載しない。「〜のプロセスが」「〜の仕組みが」で表現
48時間ルール重大インシデントは48時間以内にポストモーテムミーティングを開催
全社公開ポストモーテム文書はConfluenceで全社に公開
アクション必須最低1つの具体的なアクションアイテムを決定
フォローアップアクションアイテムは月次で進捗を追跡

アクションアイテム追跡の仕組み

仕組み内容
Jiraチケット化アクションアイテムをJiraチケットとして自動起票
月次レビュー改善推進委員が全アクションアイテムの進捗を月次でレビュー
ダッシュボード未完了アクションをリアルタイム表示
エスカレーション期限超過のアクションは自動で上長にエスカレーション
完了報告アクション完了時にポストモーテム文書に追記

Mission 3: 失敗共有の仕組みと効果測定

要件

  1. 失敗共有の3レイヤー設計(リアルタイム、定期イベント、アーカイブ)
  2. 失敗パターンカタログの初期設計(最低5パターン)
  3. 効果測定のKPIと目標値
解答例

失敗共有の3レイヤー

レイヤー仕組み開始時期担当
リアルタイムSlack #incident チャンネル1ヶ月目SREチーム
リアルタイムニアミス報告Bot3ヶ月目SREチーム
定期イベントFailure Friday(隔週)2ヶ月目持ち回り
定期イベント月次ポストモーテム共有会3ヶ月目改善推進委員
定期イベント四半期失敗レビュー4ヶ月目VPoE
アーカイブポストモーテムアーカイブ(Confluence)2ヶ月目SREチーム
アーカイブ失敗パターンカタログ4ヶ月目テックリード

失敗パターンカタログ(初期5パターン)

パターン名分類過去の発生数防御策
本番DB直接操作の罠運用年3件本番アクセスにピアレビューを必須化
依存サービスの暗黙の前提アーキテクチャ年4件依存関係のヘルスチェック自動化
リリース前の負荷テスト忘れデプロイ年2件CIパイプラインに負荷テストを組み込み
深夜メンテナンスの疲労エラー運用年3件メンテナンス時間の日中移行、ペア作業必須化
設定ファイルの環境差異設定管理年5件環境差異のCI自動チェック

KPIと目標値

指標現状3ヶ月目標6ヶ月目標
インシデント報告時間平均45分15分以内5分以内
ポストモーテム実施率(P0/P1)0%80%100%
アクションアイテム完了率N/A70%90%
同一原因再発率40%25%10%
ニアミス報告数0件/月10件/月30件/月
「失敗しても評価に悪影響はない」スコア1.8/5.02.5/5.03.5/5.0
Failure Friday参加率N/A30%50%

達成度チェック

観点達成基準
コスト分析ブレイムカルチャーのコストが定量的に算出されている
移行計画段階的かつ実行可能な6ヶ月のロードマップがある
管理職変革管理職の意識を変えるプログラムが設計されている
ポストモーテムテンプレート、実施基準、運営ルールが具体的
アクション追跡「決めたけどやらない」を防ぐ仕組みがある
失敗共有3レイヤーの仕組みが設計されている
パターンカタログ実際のデータに基づいた初期パターンが定義されている
効果測定定量的なKPIと段階的な目標値が設定されている

推定所要時間: 90分