ストーリー
ミッション概要
| 項目 | 内容 |
|---|---|
| 演習タイトル | TaskFlow社 可観測性戦略書 2026 |
| 想定時間 | 90分 |
| 成果物 | 包括的な可観測性戦略書(エグゼクティブサマリー + 全領域の戦略 + 実行計画) |
| 提出先 | CTO、経営会議 |
| 対象組織 | TaskFlow株式会社 |
前提条件
これまでのStep 1-5で得られた以下の設計成果を統合します。
Step 1: 成熟度評価
- 組織平均: Level 1(基礎的)
- Level 0: 4チーム、Level 1: 1チーム、Level 2: 3チーム
- 年間コスト: 3,020万円(7種類以上のツール混在)
Step 2: プラットフォーム設計
- ハイブリッド型アーキテクチャ
- OpenTelemetry標準化
- データティアリング(Hot/Warm/Cold/Archive)
- 移行後TCO: 2,490万円(530万円削減)
Step 3: SLI/SLO体系
- 3層SLO階層(ジャーニー/サービス/インフラ)
- 4段階エラーバジェットポリシー
- 3レベルレビューサイクル
Step 4: 予防的インシデント検知
- SLOベースアラート + 動的異常検知
- AIOps段階的導入(4フェーズ/24ヶ月)
- インシデント相関分析システム
Step 5: 文化醸成
- 3段階オンボーディングプログラム
- チャンピオンプログラム
- ガバナンスボード
- 継続的改善サイクル
Mission 1: エグゼクティブサマリーと戦略ビジョン
要件
経営層が10分で理解できるエグゼクティブサマリーを作成してください。
- 現状の課題(3つの核心的な課題に集約)
- 可観測性ビジョン(1文で表現)
- 戦略の全体像(5領域の統合マップ)
- 期待される効果(定量的な効果一覧)
- 投資サマリー(総投資額と投資回収期間)
解答例
エグゼクティブサマリー
現状の3つの核心課題:
| 課題 | 影響 | 定量データ |
|---|---|---|
| 可観測性の組織格差 | チーム間で障害対応能力に大きな差があり、組織全体の信頼性が最も弱いチームに制約される | Level 0が4チーム。インシデントの31%が顧客報告で発覚 |
| ツール乱立とデータ断絶 | サービス間のEnd-to-End分析が不可能で、複数チーム関与のインシデント解決に時間がかかる | 7種類以上のツール。複数チーム関与インシデントの平均解決時間4時間 |
| プロアクティブ運用の欠如 | 障害が起きてから対応する「リアクティブ」な運用で、予防的な対応ができない | アラート偽陽性率94%。予防的検知率0% |
可観測性ビジョン:
「TaskFlowは、すべてのサービスの健全性を統合的に可視化し、SLI/SLOに基づくプロアクティブな運用により、顧客に約束した99.9%のSLAを確実に達成し続ける組織となる」
戦略の全体像:
┌────────────────────────────────────────────────┐
│ 可観測性戦略 2026 │
├────────┬────────┬────────┬────────┬─────────────┤
│ 成熟度 │プラット│ SLI/SLO│ 検知 │ 文化 │
│ 評価 │フォーム│ 体系 │ システム│ 醸成 │
│ │ │ │ │ │
│ Level │ 統合PF │ 3層 │ 動的 │ オーナー │
│ 0→2+ │ OTel化 │ 階層 │ 異常 │ シップ │
│ │ │ エラー │ AIOps │ オンボード │
│ 6軸評価│ ティア │ バジェット│相関分析│ 改善 │
│ │ リング │ │ │ サイクル │
├────────┴────────┴────────┴────────┴─────────────┤
│ 期間: 18ヶ月 │
│ フェーズ: 基盤構築(6M)→統合(6M)→高度化(6M) │
└────────────────────────────────────────────────┘
期待される効果:
| 指標 | 現状 | 18ヶ月後 | 改善率 |
|---|---|---|---|
| 組織成熟度 | Level 1.0 | Level 2.5 | +150% |
| MTTD | 25分 | 5分 | -80% |
| MTTR | 3.5時間 | 30分 | -86% |
| 顧客報告率 | 31% | 5% | -84% |
| アラート偽陽性率 | 94% | 15% | -84% |
| SLO達成率 | 85% | 95% | +12% |
投資サマリー:
| 項目 | 金額 |
|---|---|
| 18ヶ月間の総投資額 | 5,100万円 |
| 18ヶ月間の総効果額 | 7,200万円 |
| 純効果 | +2,100万円 |
| 投資回収期間 | 約13ヶ月 |
Mission 2: 統合実行計画
要件
5領域の戦略を時間軸に沿って統合した実行計画を作成してください。
- 3フェーズのロードマップ(各フェーズのゴールと成果物)
- フェーズ間の依存関係(何が前提条件で何が並行可能か)
- リソース計画(人員、予算、時間の配分)
- リスク管理計画(Top 5リスクと緩和策)
解答例
3フェーズロードマップ
Phase 1: 基盤構築(月1-6)
| 月 | 施策 | 成果物 |
|---|---|---|
| 1 | ガバナンスボード発足、チャンピオン選出 | ガバナンス体制稼働 |
| 1-2 | ログ標準・相関ID標準策定 | 標準ドキュメント |
| 2-3 | OTel導入(SRE + API チーム パイロット) | パイロット2チーム計装完了 |
| 2-3 | Level 0チームのStage 1オンボーディング(Web, 通知) | 2チームLevel 1達成 |
| 3-4 | Tier 1サービスのSLI/SLO定義・ダッシュボード構築 | SLOダッシュボード稼働 |
| 4-5 | Level 0チームのStage 1オンボーディング(モバイル, 検索) | 2チームLevel 1達成 |
| 5-6 | アラート棚卸し、SLOベースアラート導入(Tier 1) | アラート数50%削減 |
| 6 | Phase 1振り返り、Phase 2計画策定 | Phase 1完了報告書 |
Phase 2: 統合(月7-12)
| 月 | 施策 | 成果物 |
|---|---|---|
| 7-8 | ELK/Jaeger → 統合プラットフォームへの移行開始 | 並行運用開始 |
| 7-8 | Tier 2サービスのSLI/SLO定義・エラーバジェット運用開始 | Tier 1+2のSLO運用稼働 |
| 8-9 | AIOps Phase 1導入(ノイズ削減) | 偽陽性率30%以下 |
| 9-10 | 全サービスのOTel計装完了 | End-to-Endトレース実現 |
| 10-11 | インシデント相関分析の自動化 | 自動相関分析パイプライン稼働 |
| 11-12 | 旧ツール(ELK, Jaeger)の完全廃止 | ツール統合完了 |
| 12 | Phase 2振り返り、年次戦略レビュー | Phase 2完了報告書 |
Phase 3: 高度化(月13-18)
| 月 | 施策 | 成果物 |
|---|---|---|
| 13-14 | AIOps Phase 2導入(RCA支援、予測) | MTTR 50%短縮 |
| 14-15 | ジャーニーSLO運用開始 | End-to-End品質保証 |
| 15-16 | 自動修復の段階的導入(Pod再起動、スケールアウト) | 自動解決率15% |
| 16-17 | カオスエンジニアリングプログラム開始 | 四半期Chaos Day実施 |
| 17-18 | 全社成熟度Level 2.5達成に向けた最終調整 | 組織成熟度報告書 |
| 18 | 戦略全体の振り返りと次期戦略策定 | 可観測性戦略書 2027 |
リソース計画
| リソース | Phase 1 | Phase 2 | Phase 3 | 合計 |
|---|---|---|---|---|
| SREサポート工数 | 3名分/月 | 2名分/月 | 1名分/月 | — |
| 教育・研修費 | 80万円 | 50万円 | 70万円 | 200万円 |
| ツールライセンス追加 | 200万円 | 400万円 | 100万円 | 700万円 |
| 移行プロジェクト工数 | 300万円 | 500万円 | 200万円 | 1,000万円 |
| AIOps導入費 | 0 | 300万円 | 400万円 | 700万円 |
| フェーズ合計 | 580万円 | 1,250万円 | 770万円 | 2,600万円 |
※ 既存ツールコスト(3,020万円/年)からの移行で段階的に削減効果が発生
リスク管理計画
| リスク | 影響度 | 発生確率 | 緩和策 |
|---|---|---|---|
| チームの抵抗(特にモバイル, 通知チーム) | 高 | 高 | チャンピオン配置、成功事例の共有、段階的な導入 |
| ツール移行中のデータ欠損 | 高 | 中 | 並行運用期間の設定、移行前のデータバックアップ |
| SREチームの過負荷 | 中 | 高 | 工数上限の厳守(30%)、外部コンサルの活用 |
| 予算超過 | 中 | 中 | 四半期ごとの予算レビュー、コスト削減効果の早期実現 |
| 経営層の関心低下 | 中 | 低 | 月次の定量的な進捗報告、ビジネス指標との紐づけ |
Mission 3: ビジネス価値の説明と投資判断
要件
経営層に「なぜこの投資が必要か」を説得する資料を作成してください。
- ビジネスインパクト分析(可観測性不足が引き起こすビジネスリスク)
- 投資対効果の詳細計算(年間TCO比較、効果の内訳)
- 競合他社との比較(業界標準とのギャップ)
- 投資しなかった場合のリスク
解答例
ビジネスインパクト分析
| リスクシナリオ | 発生確率 | 影響額 | 期待損失 |
|---|---|---|---|
| SLA違反による返金(年間) | 30% | 2,000万円 | 600万円 |
| 重大インシデントによる顧客解約 | 20% | 5,000万円 | 1,000万円 |
| インシデント対応の人件費 | 100% | 1,500万円 | 1,500万円 |
| アラート対応の無駄な工数 | 100% | 800万円 | 800万円 |
| 年間リスクコスト合計 | 3,900万円 |
投資対効果の詳細
年間コスト比較:
| 項目 | 現状 | 投資後(定常状態) | 差分 |
|---|---|---|---|
| ツールライセンス | 3,020万円 | 2,490万円 | -530万円 |
| インシデント対応工数 | 1,500万円 | 400万円 | -1,100万円 |
| アラート対応工数 | 800万円 | 200万円 | -600万円 |
| AIOpsライセンス | 0 | 500万円 | +500万円 |
| 教育・運用 | 0 | 200万円 | +200万円 |
| 合計 | 5,320万円 | 3,790万円 | -1,530万円 |
投資しなかった場合のリスク
| リスク | 説明 |
|---|---|
| SLA違反の増加 | 成熟度の低いチームが増えると、インシデントの検知・復旧が遅れSLA違反のリスクが高まる |
| 人材流出 | 優秀なエンジニアは可観測性が整った環境を好む。ツール乱立と運用の辛さが離職原因に |
| スケーラビリティの限界 | サービス数の増加に対して、現状の属人的な運用では対応できなくなる |
| 競争力の低下 | 業界標準のMTTRが30分以下に向かう中、3.5時間では顧客満足度で劣後する |
達成度チェック
| 観点 | 達成基準 |
|---|---|
| 統合性 | 5領域(成熟度、プラットフォーム、SLO、検知、文化)が一貫した戦略に統合されている |
| 実行可能性 | リソース制約と組織制約を考慮した現実的な実行計画になっている |
| ビジネス価値 | 投資対効果が定量的に示され、経営層が判断できるレベルになっている |
| リスク管理 | 主要リスクと緩和策が特定されている |
| 説得力 | 「なぜ今やるべきか」「投資しなかった場合のリスク」が明確に語られている |
| 整合性 | 各Stepで個別に設計した内容に矛盾がなく、時間軸で整合している |
推定所要時間: 90分