LESSON 30分

ストーリー

田中VPoE
可観測性を改善すると言っても、闇雲にツールを導入しても意味がない。まずは「今どこにいるのか」を正確に把握する必要がある
あなた
現状評価ですね。でも「可観測性のレベル」ってどう測るんですか?
田中VPoE
成熟度モデルを使う。CMM(Capability Maturity Model)のように、5段階で組織の可観測性能力を評価するフレームワークだ。各レベルの特徴と到達基準が明確に定義されている
あなた
チームによってレベルが違いますよね
田中VPoE
そうだ。だからチーム単位と組織全体の両方で評価する。最も成熟度が低いチームが組織全体のボトルネックになることが多い

可観測性成熟度モデル(5段階)

Level 0: 未整備(Ad-hoc)

観点状態
メトリクス基本的なインフラメトリクス(CPU, メモリ)のみ
ログ非構造化テキストログ、ファイル出力
トレースなし
アラート閾値ベースの簡易アラート
ダッシュボードなし、またはインフラのデフォルト画面のみ
インシデント対応サーバーにSSHしてログを直接確認
典型的な光景:
  障害発生 → SSHでログイン → tail -f /var/log/app.log → grep でエラーを探す
  → 「あのサーバーの、あのログに、何か出てない?」
  → 原因特定に数時間〜数日

Level 1: 基礎的(Basic)

観点状態
メトリクスアプリケーションメトリクスを一部収集
ログ集約ログ管理(CloudWatch Logs等)を導入
トレースなし、または一部のサービスのみ
アラートメトリクスベースのアラート設定
ダッシュボードチーム別にカスタムダッシュボード
インシデント対応ログ検索ツールで調査

Level 2: 標準化(Standardized)

観点状態
メトリクス標準的なメトリクス体系(RED/USE)を全サービスに適用
ログ構造化ログ(JSON)、共通フォーマットを導入
トレース分散トレーシングを主要サービスに導入
アラートSLI/SLOベースのアラート
ダッシュボードサービスカタログと連動したダッシュボード
インシデント対応構造化されたインシデント対応プロセス

Level 3: 統合(Integrated)

観点状態
メトリクス全サービスの統一メトリクスプラットフォーム
ログ全サービスの統合ログ基盤、相関ID付き
トレースEnd-to-Endの分散トレーシング
アラートメトリクス・ログ・トレースの相関アラート
ダッシュボードビジネスメトリクスとの統合ダッシュボード
インシデント対応3本柱を統合した迅速な根本原因分析

Level 4: プロアクティブ(Proactive)

観点状態
メトリクス予測分析、キャパシティプランニング
ログ異常ログパターンの自動検知
トレースサービス依存関係の自動マッピング
アラート異常検知ベースの予防的アラート
ダッシュボードビジネスKPIとの自動相関
インシデント対応AIOpsによる自動診断・修復提案

成熟度評価の6つの軸

各レベルの判定にあたって、以下の6つの軸で組織を評価します。

評価軸Level 0Level 1Level 2Level 3Level 4
データ収集手動・場当たり的基本的な自動収集標準化された収集統合パイプラインインテリジェント収集
データ品質未定義基本フォーマット構造化・標準化高カーディナリティ対応自動品質管理
分析能力ログ目視基本的な検索・集計多次元分析相関分析予測分析・AI
プロセスなし基本的なアラート対応SLI/SLO運用エラーバジェット運用自律的改善サイクル
文化関心なし一部のチームが取り組む組織的な標準全チームが主体的データドリブン文化
コスト管理把握していない基本的な把握予算管理最適化運用ROI最大化

スコアリング方法

各軸を0-4で採点し、合計点で全体レベルを判定:

合計点     全体レベル
0-5       Level 0(未整備)
6-10      Level 1(基礎的)
11-16     Level 2(標準化)
17-21     Level 3(統合)
22-24     Level 4(プロアクティブ)

「重要なのは”全軸を均等に上げる”ことではない。組織の課題に応じて、最もインパクトが大きい軸を優先的に改善する戦略が必要だ」 — 田中VPoE


成熟度向上のアンチパターン

よくある失敗

アンチパターン説明正しいアプローチ
ツール先行型最新ツールを導入すれば解決すると考える目的と課題を明確にしてからツールを選定
一足飛び型Level 0からいきなりLevel 4を目指す段階的にレベルを上げる
形式主義型メトリクスは取っているが誰も見ていない運用プロセスと文化の醸成を同時に進める
部分最適型特定チームだけが高い成熟度を持つ組織全体のボトムアップを優先する
過剰投資型全データを最高解像度で保存コストとのバランスを考慮したデータ戦略

推奨されるレベルアップ戦略

Phase 1(3ヶ月): Level 0 → Level 1
  ├── 構造化ログの導入
  ├── 基本メトリクスの収集
  └── 集約ログ管理の導入

Phase 2(6ヶ月): Level 1 → Level 2
  ├── ログフォーマットの標準化
  ├── RED/USEメトリクスの導入
  ├── 分散トレーシングの導入
  └── SLI/SLOの定義

Phase 3(6ヶ月): Level 2 → Level 3
  ├── 統合可観測性プラットフォーム構築
  ├── 3本柱の相関分析
  ├── エラーバジェット運用開始
  └── ビジネスメトリクスとの統合

Phase 4(12ヶ月): Level 3 → Level 4
  ├── 異常検知の導入
  ├── AIOps基盤の構築
  ├── 予測分析・キャパシティプランニング
  └── 自律的改善サイクルの確立

まとめ

ポイント内容
5段階モデルLevel 0(未整備)からLevel 4(プロアクティブ)まで段階的に成熟
6つの評価軸データ収集、データ品質、分析能力、プロセス、文化、コスト管理
スコアリング各軸0-4点、合計点で全体レベルを判定
レベルアップ戦略段階的に、組織の課題に応じた優先順位で進める

チェックリスト

  • 5段階の成熟度モデルの各レベルの特徴を理解した
  • 6つの評価軸とスコアリング方法を理解した
  • 成熟度向上のアンチパターンを理解した
  • 段階的なレベルアップ戦略を理解した

次のステップへ

次は「現状分析と課題特定」を学びます。成熟度モデルを使って実際に組織を評価し、具体的な課題を特定する方法を身につけましょう。


推定読了時間: 30分