ストーリー
ミッション概要
| 項目 | 内容 |
|---|---|
| 演習タイトル | 可観測性成熟度評価レポート |
| 想定時間 | 60分 |
| 成果物 | 成熟度評価レポート(評価結果 + ギャップ分析 + 改善戦略) |
| 対象組織 | 中堅SaaS企業 TaskFlow株式会社(架空) |
前提条件
組織の概要
会社概要:
会社名: TaskFlow株式会社(架空)
事業: BtoB SaaS(プロジェクト管理・タスク管理ツール)
社員数: 400名
開発部門: 160名(8チーム、各チーム15-25名)
サービス数: 15マイクロサービス
月間リクエスト数: 5億
SLA: 99.9%
月間インシデント数: 平均8件
平均MTTR: 3.5時間
各チームの可観測性状況
| チーム | メトリクス | ログ | トレース | アラート | ダッシュボード |
|---|---|---|---|---|---|
| Webフロント | RUM (Datadog) | Datadog Logs (JSON) | なし | エラーレートアラート | チーム専用 |
| モバイル | Firebase Crashlytics | Firebase (非構造化) | なし | クラッシュ率アラート | Firebase Console |
| API | Prometheus + Grafana | ELK Stack (JSON) | Jaeger (一部) | REDメトリクス | Grafana |
| 検索・分析 | CloudWatch | CloudWatch Logs (テキスト) | なし | CPU/メモリ閾値 | CloudWatch デフォルト |
| 通知・連携 | CloudWatch | ファイルログ | なし | なし | なし |
| 課金・決済 | Datadog | Datadog Logs (JSON) | Datadog APM | SLOアラート | Datadog |
| SRE/インフラ | Prometheus + Grafana | ELK Stack (JSON) | Jaeger | 多数設定 | Grafana (多数) |
| データPF | CloudWatch | ファイルログ + S3 | なし | ジョブ失敗通知 | Airflow UI |
インシデントデータ(直近6ヶ月)
| 指標 | 値 |
|---|---|
| 総インシデント数 | 48件 |
| 平均MTTD(検知時間) | 25分 |
| 平均MTTR(復旧時間) | 3.5時間 |
| 顧客報告で発覚 | 15件(31%) |
| 複数チーム関与 | 22件(46%) |
| 原因特定に1時間以上 | 30件(63%) |
| 再発インシデント | 8件(17%) |
コストデータ
| ツール/項目 | 年間コスト |
|---|---|
| Datadog(Web, 課金, SRE) | 1,800万円 |
| ELK Stack(自前運用) | 600万円(インフラ + 運用工数) |
| CloudWatch | 300万円 |
| Firebase | 120万円 |
| Jaeger(自前運用) | 200万円(インフラ + 運用工数) |
| 合計 | 3,020万円 |
Mission 1: 成熟度評価
要件
前提条件の情報をもとに、以下を作成してください。
- チーム別成熟度スコアリング(8チーム × 6軸)
- 組織全体の成熟度レベル判定
- 成熟度分布の可視化(テキストベース)
解答例
チーム別成熟度スコアリング
| チーム | データ収集 | データ品質 | 分析能力 | プロセス | 文化 | コスト管理 | 合計 | レベル |
|---|---|---|---|---|---|---|---|---|
| Webフロント | 2 | 2 | 1 | 1 | 2 | 1 | 9 | L1 |
| モバイル | 1 | 0 | 1 | 1 | 1 | 0 | 4 | L0 |
| API | 3 | 2 | 2 | 2 | 2 | 1 | 12 | L2 |
| 検索・分析 | 1 | 0 | 1 | 1 | 0 | 0 | 3 | L0 |
| 通知・連携 | 0 | 0 | 0 | 0 | 0 | 0 | 0 | L0 |
| 課金・決済 | 3 | 2 | 2 | 3 | 2 | 2 | 14 | L2 |
| SRE/インフラ | 3 | 2 | 3 | 2 | 3 | 2 | 15 | L2 |
| データPF | 1 | 0 | 0 | 1 | 0 | 0 | 2 | L0 |
組織全体の判定
組織全体の平均スコア: 7.4 → Level 1(基礎的)
ただし、チーム間の分散が非常に大きい(標準偏差 5.5)ことが最大の課題。
成熟度分布
Level 4 ┤
Level 3 ┤
Level 2 ┤ ███ API, 課金・決済, SRE/インフラ
Level 1 ┤ █ Webフロント
Level 0 ┤ ████ モバイル, 検索・分析, 通知・連携, データPF
└─────────────────
Mission 2: ギャップ分析
要件
成熟度評価をもとに、以下を作成してください。
- 6軸のギャップマトリクス(現状 → 目標)
- 課題の分類(ツールスプロール、データサイロ、可観測性格差)
- 優先課題TOP3の特定と根拠
解答例
ギャップマトリクス(組織全体)
| 評価軸 | 現状平均 | 目標 | ギャップ | 優先度 |
|---|---|---|---|---|
| データ収集 | 1.75 | 3 | 1.25 | 高 |
| データ品質 | 1.00 | 3 | 2.00 | 最優先 |
| 分析能力 | 1.25 | 3 | 1.75 | 高 |
| プロセス | 1.25 | 3 | 1.75 | 高 |
| 文化 | 1.25 | 2 | 0.75 | 中 |
| コスト管理 | 0.75 | 2 | 1.25 | 中 |
課題の分類
ツールスプロール:
- メトリクス: Datadog + Prometheus + CloudWatch + Firebase(4ツール)
- ログ: Datadog Logs + ELK + CloudWatch Logs + Firebase + ファイルログ(5種)
- トレース: Datadog APM + Jaeger + X-Ray(未導入チーム多数)
- 合計7種類以上のツールが混在、年間コスト3,020万円
データサイロ:
- ログフォーマット: JSON構造化(3チーム)、テキスト(3チーム)、なし/ファイル(2チーム)
- 相関ID: 一部のみ(API + 課金・決済間のみ)
- メトリクス命名規則: 統一なし
- サービス間のEnd-to-Endトレース: 不可能
可観測性格差:
- Level 2: 3チーム(API, 課金・決済, SRE)
- Level 1: 1チーム(Webフロント)
- Level 0: 4チーム(モバイル, 検索・分析, 通知・連携, データPF)
- 最低レベルのチーム(通知・連携)がインシデントのボトルネック
優先課題TOP3
| 順位 | 課題 | 根拠 |
|---|---|---|
| 1 | ログフォーマットの標準化と相関IDの導入 | インシデントの63%で原因特定に1時間以上。複数チーム関与が46%。相関分析ができないことが最大のボトルネック |
| 2 | Level 0チーム(4チーム)の底上げ | 全インシデントの40%以上がLevel 0チームのサービスで発生。顧客報告による発覚の大半がこれらのチーム |
| 3 | 統合可観測性プラットフォームへの移行 | 7種類以上のツール乱立がコスト非効率とデータ断絶の根本原因。年間600万円以上の削減ポテンシャル |
Mission 3: 改善戦略の策定
要件
ギャップ分析をもとに、以下を作成してください。
- 可観測性ビジョンステートメント
- 3フェーズのロードマップ(各フェーズのマイルストーン付き)
- ROI計算(投資額と期待効果)
解答例
ビジョンステートメント
「TaskFlowは、すべてのサービスの健全性を統合的に可視化し、SLI/SLOに基づくプロアクティブな運用により、顧客に約束した99.9%のSLAを確実に達成し続ける組織を目指す」
ロードマップ
| フェーズ | 期間 | 目標 | マイルストーン |
|---|---|---|---|
| Phase 1: 基盤統一 | 0-6ヶ月 | 全チームLevel 1以上 | ログ標準策定・展開完了、相関ID導入、Level 0チームの底上げ完了 |
| Phase 2: 統合 | 6-12ヶ月 | 全チームLevel 2以上 | 統合プラットフォーム稼働、SLI/SLO全サービス定義完了、End-to-Endトレース実現 |
| Phase 3: 高度化 | 12-18ヶ月 | 主要チームLevel 3 | 異常検知導入、エラーバジェット運用開始、ビジネスメトリクス統合 |
ROI計算
投資:
| 項目 | 年額 |
|---|---|
| 統合プラットフォーム(Datadog統一) | 2,400万円 |
| 移行プロジェクト工数 | 800万円 |
| 教育・オンボーディング | 200万円 |
| 合計 | 3,400万円 |
効果:
| 項目 | 年間効果 |
|---|---|
| ツール統合コスト削減(3,020万→2,400万) | 620万円 |
| MTTR50%短縮(3.5h→1.75h) | 1,200万円 |
| 顧客報告インシデント80%削減 | 800万円(信頼性向上・解約防止) |
| アラートノイズ削減(偽陽性60%→15%) | 500万円 |
| 合計 | 3,120万円 |
初年度ROI: -280万円(移行投資のため) 2年目以降ROI: +2,320万円/年(移行工数なし) 投資回収期間: 約13ヶ月
達成度チェック
| 観点 | 達成基準 |
|---|---|
| 評価の正確性 | 8チームすべてが6軸で評価されている |
| 分析の深さ | ツールスプロール、データサイロ、可観測性格差の3観点で分析されている |
| 優先順位の妥当性 | インシデントデータに基づいた合理的な優先順位付けがされている |
| 戦略の具体性 | フェーズ分け、マイルストーン、ROIが含まれている |
| 説得力 | CTO/経営層が投資判断できるレベルの根拠がある |
推定所要時間: 60分