ストーリー
可観測性とは何か
モニタリングとの違い
「モニタリング」と「可観測性」は混同されがちですが、本質的に異なる概念です。
| 観点 | モニタリング | 可観測性 |
|---|---|---|
| 問いの方向 | 事前に定義した問いに答える | 未知の問いにも答えられる |
| アプローチ | 「何を監視するか」を決めてダッシュボードを作る | システムの内部状態を外部出力から推測可能にする |
| 対応タイプ | リアクティブ(障害発生後に対応) | プロアクティブ(障害の予兆を検知) |
| スケーラビリティ | 監視対象が増えるとダッシュボードが膨大に | 高カーディナリティデータの探索で対応 |
| 根本原因分析 | 「何が壊れたか」は分かる | 「なぜ壊れたか」まで追求できる |
モニタリング:
"CPU使用率が90%を超えた" → アラート → 人が調査
可観測性:
"レイテンシが上昇" → 自動で関連メトリクス・ログ・トレースを相関
→ "特定のエンドポイントで、特定のDBクエリが遅延"
→ "先週のデプロイで追加されたN+1クエリが原因"
「モニタリングは”既知の既知”に対応する。可観測性は”未知の未知”にも対応できる状態を作ることだ」 — 田中VPoE
可観測性の3本柱
可観測性は3つのシグナルタイプ(テレメトリデータ)で構成されます。
| シグナル | 説明 | 答えられる問い | 代表的ツール |
|---|---|---|---|
| メトリクス | 時系列の数値データ(集約済み) | 「何が起きているか」 | Prometheus, Datadog, CloudWatch |
| ログ | 離散的なイベント記録 | 「何が起きたか」の詳細 | Elasticsearch, Loki, CloudWatch Logs |
| トレース | リクエストの分散処理経路 | 「どう処理されたか」 | Jaeger, Zipkin, AWS X-Ray |
3本柱の相関が鍵
メトリクス: "エラーレートが5%に上昇"
↓ 相関
トレース: "サービスBへのリクエストでタイムアウトが多発"
↓ 相関
ログ: "サービスBのDBコネクションプールが枯渇、エラー詳細を確認"
↓
根本原因: "昨日のデプロイでコネクションリーク"
3本柱を個別に運用しているだけでは不十分です。それらを相関させて初めて可観測性が実現します。これが多くの組織がつまずくポイントです。
なぜ「組織の」可観測性が重要なのか
チーム単位の可観測性の限界
| 問題 | 具体的な症状 | 影響 |
|---|---|---|
| ツールの乱立 | チームAはDatadog、BはNew Relic、CはCloudWatch | コスト増大、知見の断絶 |
| データの断絶 | サービス間のトレースが途切れる | 障害時のエンドツーエンド分析が不能 |
| 基準の不在 | ログフォーマットがチームごとに異なる | 横断的な分析・検索が困難 |
| スキルの偏在 | 特定チームだけが高い可観測性を持つ | 組織全体の信頼性にばらつき |
| コストの不透明 | 各チームが個別に契約・運用 | 全社での最適化ができない |
組織的な可観測性で実現すること
Before(現状):
チームA: Datadog + 構造化ログ + 分散トレーシング ← 成熟度高い
チームB: CloudWatch + 非構造化ログ + トレースなし ← 成熟度低い
チームC: 自前Prometheus + ファイルログ + なし ← 成熟度最低
→ サービスA→B→Cのリクエスト追跡が不可能
After(目指す姿):
全チーム: 統合プラットフォーム + 標準フォーマット + End-to-Endトレース
→ 任意のリクエストを組織全体で追跡可能
→ SLI/SLOに基づくプロアクティブな運用
→ AIOpsによる予防的インシデント検知
Month 6 のロードマップ
| Step | テーマ | 得られる成果 |
|---|---|---|
| 1 | 可観測性の成熟度を評価しよう | 成熟度評価、現状分析、可観測性戦略のビジョン |
| 2 | 統合可観測性プラットフォームを設計しよう | プラットフォームアーキテクチャ、データ収集、可視化設計 |
| 3 | SLI/SLO体系を組織に展開しよう | SLI/SLO戦略、階層設計、エラーバジェットポリシー |
| 4 | 予防的インシデント検知を実現しよう | 異常検知、アラート設計、AIOps、相関分析 |
| 5 | 可観測性文化を醸成しよう | 文化の要素、オンボーディング、継続的改善サイクル |
| 6 | 可観測性戦略を完成させよう | 統合可観測性戦略書 |
「可観測性は”ツールの導入”ではない。“組織の能力”だ。ツールはあくまで手段に過ぎない。文化・プロセス・人を含めた総合的な戦略が必要なんだ」 — 田中VPoE
まとめ
| ポイント | 内容 |
|---|---|
| モニタリング vs 可観測性 | モニタリングは既知の問題に対応、可観測性は未知の問題も探索可能 |
| 3本柱 | メトリクス、ログ、トレースを相関させることが重要 |
| 組織的な課題 | ツール乱立、データ断絶、基準不在、スキル偏在 |
| 目指す姿 | 統合プラットフォーム + SLI/SLO + プロアクティブ運用 |
チェックリスト
- モニタリングと可観測性の違いを理解した
- 3本柱(メトリクス・ログ・トレース)の役割と相関の重要性を理解した
- チーム単位の可観測性の限界を理解した
- Month 6のロードマップを把握した
次のステップへ
次は「可観測性成熟度モデル」を学びます。組織の可観測性をどのように段階的に評価し、改善していくかのフレームワークを身につけましょう。
推定読了時間: 15分