LESSON 30分

ストーリー

田中VPoE
成熟度モデルのフレームワークは理解できた。次は実際に組織の現状を分析する方法だ
あなた
各チームにヒアリングすればいいですか?
田中VPoE
ヒアリングだけでは不十分だ。人は自分の環境を過大評価する傾向がある。「うちはちゃんとやっている」と言うチームのログが非構造化テキストだったりする。定量的なデータ収集と定性的なヒアリングの両方が必要だ
あなた
ギャップ分析のようなものですね
田中VPoE
その通り。あるべき姿と現状のギャップを正確に把握し、優先的に解決すべき課題を特定する。これが可観測性戦略の出発点だ

現状分析の3つのアプローチ

1. 定量的データ収集

実際のシステムから客観的なデータを収集します。

収集対象確認項目収集方法
テレメトリカバレッジメトリクス、ログ、トレースの導入率リポジトリスキャン、設定ファイル確認
データ品質構造化率、フォーマット統一率、欠損率ログサンプリング分析
ツールインベントリ使用ツール一覧、契約状況、利用率ツール管理台帳、請求データ
インシデントデータMTTR、MTTD、インシデント件数推移インシデント管理システム
コストデータツール費用、運用工数、ストレージコスト請求データ、工数管理

2. 定性的ヒアリング

チームメンバーの実体験と認識を収集します。

対象者ヒアリング項目
SRE/インフラチーム現在の運用プロセス、ペインポイント、改善要望
開発チーム計装(インストルメンテーション)の状況、デバッグ体験
マネージャー可観測性に対する投資意欲、優先度認識
オンコール担当者インシデント対応時の情報アクセス、困りごと
経営層ビジネス観点での可視性要求

3. インシデント振り返り分析

過去のインシデントから可観測性の課題を抽出します。

分析項目目的
検知までの時間(MTTD)検知能力のギャップを特定
原因特定までの時間分析能力のギャップを特定
必要だったが不足していた情報データ収集のギャップを特定
複数チームをまたいだ調査の有無統合性のギャップを特定
再発した問題プロアクティブ検知のギャップを特定

よく見つかる課題パターン

ツールスプロール(ツールの乱立)

組織でよく見る状態:

メトリクス:
  チームA: Datadog
  チームB: New Relic
  チームC: Prometheus + Grafana
  チームD: CloudWatch

ログ:
  チームA: Datadog Logs
  チームB: Splunk
  チームC: ELK Stack
  チームD: CloudWatch Logs

トレース:
  チームA: Datadog APM
  チームB: なし
  チームC: Jaeger
  チームD: X-Ray
影響詳細
コスト非効率類似ツールの重複契約、ボリュームディスカウントの機会損失
知見の断絶チーム間でツール知識が共有されない
統合困難サービス間の相関分析ができない
運用負荷複数ツールの管理・アップデート・トラブルシューティング

データサイロ

問題具体例
フォーマット不統一チームAはJSON構造化ログ、チームBはプレーンテキスト
相関IDの欠如リクエストをサービス間で追跡できない
メトリクス命名規則の不統一http_requests_total vs request_count vs api.requests
保持期間の不統一チームAは90日、チームBは7日
アクセス権の分断他チームのデータを参照できない

可観測性格差

組織内の成熟度分布(よくある状態):

  Level 4 ┤
  Level 3 ┤ ██ SRE
  Level 2 ┤ ████ フロントエンド、API
  Level 1 ┤ ██████ 決済、通知
  Level 0 ┤ ████ バッチ、データPF
          └───────────────────
           チーム数

問題: 最も成熟度が低いサービスが障害のボトルネックになる

ギャップ分析の実施方法

ターゲット状態の定義

まず組織として目指すべき成熟度レベルを定義します。

判断基準Level 2を目標にすべき組織Level 3を目標にすべき組織
組織規模100名以下の開発組織100名以上の開発組織
サービス数10以下10以上
SLA要件99.9%未満99.9%以上
インシデント頻度月1回未満月1回以上
マイクロサービス化初期段階進行中・成熟

ギャップマトリクス

評価軸現状レベル目標レベルギャップ優先度必要なアクション
データ収集132統合収集パイプライン構築
データ品質022ログフォーマット標準化
分析能力132相関分析基盤導入
プロセス022SLI/SLO定義と運用
文化121教育・オンボーディング
コスト管理022コスト可視化と予算管理

優先順位の判断基準

優先度条件
最優先インシデント対応に直結する課題(MTTR短縮に寄与)
サービス間の統合に関わる課題(データ断絶の解消)
効率化・標準化に関わる課題(コスト削減、知見共有)
将来的な改善に関わる課題(高度な分析、自動化)

「“全部やる”は”何もやらない”と同じだ。最もインパクトが大きい課題を3つに絞り、まずそこに集中する。それが戦略だ」 — 田中VPoE


まとめ

ポイント内容
3つのアプローチ定量的データ収集、定性的ヒアリング、インシデント振り返り
よくある課題ツールスプロール、データサイロ、可観測性格差
ギャップ分析現状と目標の差を6軸で可視化し、優先順位を付ける
優先順位付けインシデント対応への直結度を最重要基準とする

チェックリスト

  • 現状分析の3つのアプローチを理解した
  • ツールスプロールとデータサイロの問題を理解した
  • ギャップ分析の実施方法を理解した
  • 優先順位付けの判断基準を理解した

次のステップへ

次は「可観測性戦略の設計」を学びます。ギャップ分析の結果をもとに、組織の可観測性を改善するための戦略を設計する方法を身につけましょう。


推定読了時間: 30分