EXERCISE 60分

ストーリー

田中VPoE
成熟度モデル、現状分析、戦略設計 — 理論は一通り学んだ。ここからは実践だ。架空のSaaS企業の可観測性を評価し、改善戦略を策定してもらう
あなた
実際に評価レポートを作るんですね
田中VPoE
そうだ。このレポートはCTOに提出して「可観測性強化プロジェクト」の予算承認を得るための土台になる。数字とデータで語れるレポートを頼む

ミッション概要

項目内容
演習タイトル可観測性成熟度評価レポート
想定時間60分
成果物成熟度評価レポート(評価結果 + ギャップ分析 + 改善戦略)
対象組織中堅SaaS企業 TaskFlow株式会社(架空)

前提条件

組織の概要

会社概要:
  会社名: TaskFlow株式会社(架空)
  事業: BtoB SaaS(プロジェクト管理・タスク管理ツール)
  社員数: 400名
  開発部門: 160名(8チーム、各チーム15-25名)
  サービス数: 15マイクロサービス
  月間リクエスト数: 5億
  SLA: 99.9%
  月間インシデント数: 平均8件
  平均MTTR: 3.5時間

各チームの可観測性状況

チームメトリクスログトレースアラートダッシュボード
WebフロントRUM (Datadog)Datadog Logs (JSON)なしエラーレートアラートチーム専用
モバイルFirebase CrashlyticsFirebase (非構造化)なしクラッシュ率アラートFirebase Console
APIPrometheus + GrafanaELK Stack (JSON)Jaeger (一部)REDメトリクスGrafana
検索・分析CloudWatchCloudWatch Logs (テキスト)なしCPU/メモリ閾値CloudWatch デフォルト
通知・連携CloudWatchファイルログなしなしなし
課金・決済DatadogDatadog Logs (JSON)Datadog APMSLOアラートDatadog
SRE/インフラPrometheus + GrafanaELK Stack (JSON)Jaeger多数設定Grafana (多数)
データPFCloudWatchファイルログ + S3なしジョブ失敗通知Airflow UI

インシデントデータ(直近6ヶ月)

指標
総インシデント数48件
平均MTTD(検知時間)25分
平均MTTR(復旧時間)3.5時間
顧客報告で発覚15件(31%)
複数チーム関与22件(46%)
原因特定に1時間以上30件(63%)
再発インシデント8件(17%)

コストデータ

ツール/項目年間コスト
Datadog(Web, 課金, SRE)1,800万円
ELK Stack(自前運用)600万円(インフラ + 運用工数)
CloudWatch300万円
Firebase120万円
Jaeger(自前運用)200万円(インフラ + 運用工数)
合計3,020万円

Mission 1: 成熟度評価

要件

前提条件の情報をもとに、以下を作成してください。

  1. チーム別成熟度スコアリング(8チーム × 6軸)
  2. 組織全体の成熟度レベル判定
  3. 成熟度分布の可視化(テキストベース)
解答例

チーム別成熟度スコアリング

チームデータ収集データ品質分析能力プロセス文化コスト管理合計レベル
Webフロント2211219L1
モバイル1011104L0
API32222112L2
検索・分析1011003L0
通知・連携0000000L0
課金・決済32232214L2
SRE/インフラ32323215L2
データPF1001002L0

組織全体の判定

組織全体の平均スコア: 7.4 → Level 1(基礎的)

ただし、チーム間の分散が非常に大きい(標準偏差 5.5)ことが最大の課題。

成熟度分布

Level 4 ┤
Level 3 ┤
Level 2 ┤ ███ API, 課金・決済, SRE/インフラ
Level 1 ┤ █ Webフロント
Level 0 ┤ ████ モバイル, 検索・分析, 通知・連携, データPF
        └─────────────────

Mission 2: ギャップ分析

要件

成熟度評価をもとに、以下を作成してください。

  1. 6軸のギャップマトリクス(現状 → 目標)
  2. 課題の分類(ツールスプロール、データサイロ、可観測性格差)
  3. 優先課題TOP3の特定と根拠
解答例

ギャップマトリクス(組織全体)

評価軸現状平均目標ギャップ優先度
データ収集1.7531.25
データ品質1.0032.00最優先
分析能力1.2531.75
プロセス1.2531.75
文化1.2520.75
コスト管理0.7521.25

課題の分類

ツールスプロール:

  • メトリクス: Datadog + Prometheus + CloudWatch + Firebase(4ツール)
  • ログ: Datadog Logs + ELK + CloudWatch Logs + Firebase + ファイルログ(5種)
  • トレース: Datadog APM + Jaeger + X-Ray(未導入チーム多数)
  • 合計7種類以上のツールが混在、年間コスト3,020万円

データサイロ:

  • ログフォーマット: JSON構造化(3チーム)、テキスト(3チーム)、なし/ファイル(2チーム)
  • 相関ID: 一部のみ(API + 課金・決済間のみ)
  • メトリクス命名規則: 統一なし
  • サービス間のEnd-to-Endトレース: 不可能

可観測性格差:

  • Level 2: 3チーム(API, 課金・決済, SRE)
  • Level 1: 1チーム(Webフロント)
  • Level 0: 4チーム(モバイル, 検索・分析, 通知・連携, データPF)
  • 最低レベルのチーム(通知・連携)がインシデントのボトルネック

優先課題TOP3

順位課題根拠
1ログフォーマットの標準化と相関IDの導入インシデントの63%で原因特定に1時間以上。複数チーム関与が46%。相関分析ができないことが最大のボトルネック
2Level 0チーム(4チーム)の底上げ全インシデントの40%以上がLevel 0チームのサービスで発生。顧客報告による発覚の大半がこれらのチーム
3統合可観測性プラットフォームへの移行7種類以上のツール乱立がコスト非効率とデータ断絶の根本原因。年間600万円以上の削減ポテンシャル

Mission 3: 改善戦略の策定

要件

ギャップ分析をもとに、以下を作成してください。

  1. 可観測性ビジョンステートメント
  2. 3フェーズのロードマップ(各フェーズのマイルストーン付き)
  3. ROI計算(投資額と期待効果)
解答例

ビジョンステートメント

「TaskFlowは、すべてのサービスの健全性を統合的に可視化し、SLI/SLOに基づくプロアクティブな運用により、顧客に約束した99.9%のSLAを確実に達成し続ける組織を目指す」

ロードマップ

フェーズ期間目標マイルストーン
Phase 1: 基盤統一0-6ヶ月全チームLevel 1以上ログ標準策定・展開完了、相関ID導入、Level 0チームの底上げ完了
Phase 2: 統合6-12ヶ月全チームLevel 2以上統合プラットフォーム稼働、SLI/SLO全サービス定義完了、End-to-Endトレース実現
Phase 3: 高度化12-18ヶ月主要チームLevel 3異常検知導入、エラーバジェット運用開始、ビジネスメトリクス統合

ROI計算

投資:

項目年額
統合プラットフォーム(Datadog統一)2,400万円
移行プロジェクト工数800万円
教育・オンボーディング200万円
合計3,400万円

効果:

項目年間効果
ツール統合コスト削減(3,020万→2,400万)620万円
MTTR50%短縮(3.5h→1.75h)1,200万円
顧客報告インシデント80%削減800万円(信頼性向上・解約防止)
アラートノイズ削減(偽陽性60%→15%)500万円
合計3,120万円

初年度ROI: -280万円(移行投資のため) 2年目以降ROI: +2,320万円/年(移行工数なし) 投資回収期間: 約13ヶ月


達成度チェック

観点達成基準
評価の正確性8チームすべてが6軸で評価されている
分析の深さツールスプロール、データサイロ、可観測性格差の3観点で分析されている
優先順位の妥当性インシデントデータに基づいた合理的な優先順位付けがされている
戦略の具体性フェーズ分け、マイルストーン、ROIが含まれている
説得力CTO/経営層が投資判断できるレベルの根拠がある

推定所要時間: 60分