EXERCISE 90分

ストーリー

田中VPoE
ここまで5つのStepを通じて、可観測性の全領域を学んできた。成熟度評価、プラットフォーム設計、SLI/SLO体系、予防的インシデント検知、文化醸成 — これらを1つの「可観測性戦略書」に統合する。これが今月の集大成だ
あなた
CTOに提出する最終的な戦略書ですね
田中VPoE
そうだ。この戦略書は「可観測性変革プロジェクト」の全体計画書であり、経営層の最終承認を得るための文書だ。技術的な正しさだけでなく、ビジネス価値、投資対効果、組織的な実行計画を含めた包括的な戦略書を仕上げてくれ
あなた
全てのStepの成果を統合するんですね
田中VPoE
さらに、各Stepで個別に設計した内容の整合性を確認し、矛盾があれば調整する。全体を俯瞰したときに一貫性のあるストーリーになっているかが重要だ

ミッション概要

項目内容
演習タイトルTaskFlow社 可観測性戦略書 2026
想定時間90分
成果物包括的な可観測性戦略書(エグゼクティブサマリー + 全領域の戦略 + 実行計画)
提出先CTO、経営会議
対象組織TaskFlow株式会社

前提条件

これまでのStep 1-5で得られた以下の設計成果を統合します。

Step 1: 成熟度評価
  - 組織平均: Level 1(基礎的)
  - Level 0: 4チーム、Level 1: 1チーム、Level 2: 3チーム
  - 年間コスト: 3,020万円(7種類以上のツール混在)

Step 2: プラットフォーム設計
  - ハイブリッド型アーキテクチャ
  - OpenTelemetry標準化
  - データティアリング(Hot/Warm/Cold/Archive)
  - 移行後TCO: 2,490万円(530万円削減)

Step 3: SLI/SLO体系
  - 3層SLO階層(ジャーニー/サービス/インフラ)
  - 4段階エラーバジェットポリシー
  - 3レベルレビューサイクル

Step 4: 予防的インシデント検知
  - SLOベースアラート + 動的異常検知
  - AIOps段階的導入(4フェーズ/24ヶ月)
  - インシデント相関分析システム

Step 5: 文化醸成
  - 3段階オンボーディングプログラム
  - チャンピオンプログラム
  - ガバナンスボード
  - 継続的改善サイクル

Mission 1: エグゼクティブサマリーと戦略ビジョン

要件

経営層が10分で理解できるエグゼクティブサマリーを作成してください。

  1. 現状の課題(3つの核心的な課題に集約)
  2. 可観測性ビジョン(1文で表現)
  3. 戦略の全体像(5領域の統合マップ)
  4. 期待される効果(定量的な効果一覧)
  5. 投資サマリー(総投資額と投資回収期間)
解答例

エグゼクティブサマリー

現状の3つの核心課題:

課題影響定量データ
可観測性の組織格差チーム間で障害対応能力に大きな差があり、組織全体の信頼性が最も弱いチームに制約されるLevel 0が4チーム。インシデントの31%が顧客報告で発覚
ツール乱立とデータ断絶サービス間のEnd-to-End分析が不可能で、複数チーム関与のインシデント解決に時間がかかる7種類以上のツール。複数チーム関与インシデントの平均解決時間4時間
プロアクティブ運用の欠如障害が起きてから対応する「リアクティブ」な運用で、予防的な対応ができないアラート偽陽性率94%。予防的検知率0%

可観測性ビジョン:

「TaskFlowは、すべてのサービスの健全性を統合的に可視化し、SLI/SLOに基づくプロアクティブな運用により、顧客に約束した99.9%のSLAを確実に達成し続ける組織となる」

戦略の全体像:

┌────────────────────────────────────────────────┐
│            可観測性戦略 2026                     │
├────────┬────────┬────────┬────────┬─────────────┤
│ 成熟度  │プラット│ SLI/SLO│ 検知   │ 文化         │
│ 評価   │フォーム│ 体系   │ システム│ 醸成         │
│        │        │        │        │             │
│ Level  │ 統合PF │ 3層    │ 動的   │ オーナー     │
│ 0→2+  │ OTel化 │ 階層   │ 異常   │ シップ       │
│        │        │ エラー │ AIOps  │ オンボード   │
│ 6軸評価│ ティア │ バジェット│相関分析│ 改善         │
│        │ リング │        │        │ サイクル     │
├────────┴────────┴────────┴────────┴─────────────┤
│ 期間: 18ヶ月                                    │
│ フェーズ: 基盤構築(6M)→統合(6M)→高度化(6M)      │
└────────────────────────────────────────────────┘

期待される効果:

指標現状18ヶ月後改善率
組織成熟度Level 1.0Level 2.5+150%
MTTD25分5分-80%
MTTR3.5時間30分-86%
顧客報告率31%5%-84%
アラート偽陽性率94%15%-84%
SLO達成率85%95%+12%

投資サマリー:

項目金額
18ヶ月間の総投資額5,100万円
18ヶ月間の総効果額7,200万円
純効果+2,100万円
投資回収期間約13ヶ月

Mission 2: 統合実行計画

要件

5領域の戦略を時間軸に沿って統合した実行計画を作成してください。

  1. 3フェーズのロードマップ(各フェーズのゴールと成果物)
  2. フェーズ間の依存関係(何が前提条件で何が並行可能か)
  3. リソース計画(人員、予算、時間の配分)
  4. リスク管理計画(Top 5リスクと緩和策)
解答例

3フェーズロードマップ

Phase 1: 基盤構築(月1-6)

施策成果物
1ガバナンスボード発足、チャンピオン選出ガバナンス体制稼働
1-2ログ標準・相関ID標準策定標準ドキュメント
2-3OTel導入(SRE + API チーム パイロット)パイロット2チーム計装完了
2-3Level 0チームのStage 1オンボーディング(Web, 通知)2チームLevel 1達成
3-4Tier 1サービスのSLI/SLO定義・ダッシュボード構築SLOダッシュボード稼働
4-5Level 0チームのStage 1オンボーディング(モバイル, 検索)2チームLevel 1達成
5-6アラート棚卸し、SLOベースアラート導入(Tier 1)アラート数50%削減
6Phase 1振り返り、Phase 2計画策定Phase 1完了報告書

Phase 2: 統合(月7-12)

施策成果物
7-8ELK/Jaeger → 統合プラットフォームへの移行開始並行運用開始
7-8Tier 2サービスのSLI/SLO定義・エラーバジェット運用開始Tier 1+2のSLO運用稼働
8-9AIOps Phase 1導入(ノイズ削減)偽陽性率30%以下
9-10全サービスのOTel計装完了End-to-Endトレース実現
10-11インシデント相関分析の自動化自動相関分析パイプライン稼働
11-12旧ツール(ELK, Jaeger)の完全廃止ツール統合完了
12Phase 2振り返り、年次戦略レビューPhase 2完了報告書

Phase 3: 高度化(月13-18)

施策成果物
13-14AIOps Phase 2導入(RCA支援、予測)MTTR 50%短縮
14-15ジャーニーSLO運用開始End-to-End品質保証
15-16自動修復の段階的導入(Pod再起動、スケールアウト)自動解決率15%
16-17カオスエンジニアリングプログラム開始四半期Chaos Day実施
17-18全社成熟度Level 2.5達成に向けた最終調整組織成熟度報告書
18戦略全体の振り返りと次期戦略策定可観測性戦略書 2027

リソース計画

リソースPhase 1Phase 2Phase 3合計
SREサポート工数3名分/月2名分/月1名分/月
教育・研修費80万円50万円70万円200万円
ツールライセンス追加200万円400万円100万円700万円
移行プロジェクト工数300万円500万円200万円1,000万円
AIOps導入費0300万円400万円700万円
フェーズ合計580万円1,250万円770万円2,600万円

※ 既存ツールコスト(3,020万円/年)からの移行で段階的に削減効果が発生

リスク管理計画

リスク影響度発生確率緩和策
チームの抵抗(特にモバイル, 通知チーム)チャンピオン配置、成功事例の共有、段階的な導入
ツール移行中のデータ欠損並行運用期間の設定、移行前のデータバックアップ
SREチームの過負荷工数上限の厳守(30%)、外部コンサルの活用
予算超過四半期ごとの予算レビュー、コスト削減効果の早期実現
経営層の関心低下月次の定量的な進捗報告、ビジネス指標との紐づけ

Mission 3: ビジネス価値の説明と投資判断

要件

経営層に「なぜこの投資が必要か」を説得する資料を作成してください。

  1. ビジネスインパクト分析(可観測性不足が引き起こすビジネスリスク)
  2. 投資対効果の詳細計算(年間TCO比較、効果の内訳)
  3. 競合他社との比較(業界標準とのギャップ)
  4. 投資しなかった場合のリスク
解答例

ビジネスインパクト分析

リスクシナリオ発生確率影響額期待損失
SLA違反による返金(年間)30%2,000万円600万円
重大インシデントによる顧客解約20%5,000万円1,000万円
インシデント対応の人件費100%1,500万円1,500万円
アラート対応の無駄な工数100%800万円800万円
年間リスクコスト合計3,900万円

投資対効果の詳細

年間コスト比較:

項目現状投資後(定常状態)差分
ツールライセンス3,020万円2,490万円-530万円
インシデント対応工数1,500万円400万円-1,100万円
アラート対応工数800万円200万円-600万円
AIOpsライセンス0500万円+500万円
教育・運用0200万円+200万円
合計5,320万円3,790万円-1,530万円

投資しなかった場合のリスク

リスク説明
SLA違反の増加成熟度の低いチームが増えると、インシデントの検知・復旧が遅れSLA違反のリスクが高まる
人材流出優秀なエンジニアは可観測性が整った環境を好む。ツール乱立と運用の辛さが離職原因に
スケーラビリティの限界サービス数の増加に対して、現状の属人的な運用では対応できなくなる
競争力の低下業界標準のMTTRが30分以下に向かう中、3.5時間では顧客満足度で劣後する

達成度チェック

観点達成基準
統合性5領域(成熟度、プラットフォーム、SLO、検知、文化)が一貫した戦略に統合されている
実行可能性リソース制約と組織制約を考慮した現実的な実行計画になっている
ビジネス価値投資対効果が定量的に示され、経営層が判断できるレベルになっている
リスク管理主要リスクと緩和策が特定されている
説得力「なぜ今やるべきか」「投資しなかった場合のリスク」が明確に語られている
整合性各Stepで個別に設計した内容に矛盾がなく、時間軸で整合している

推定所要時間: 90分