LESSON 15分

ストーリー

田中VPoE
今月のテーマは「可観測性(Observability)」だ。率直に言う — うちの組織は「何が起きているか分からない」状態のシステムだらけだ
あなた
ログは取っているはずですが…
田中VPoE
ログは取っている。メトリクスも一部ある。トレースも特定チームは導入済みだ。だが、それらがバラバラに存在していて「組織として」何が起きているかを俯瞰できない。先月のインシデント対応を覚えているか?
あなた
原因特定に4時間かかったやつですね。3チームのログを突き合わせて、やっとリクエストの流れが追えた
田中VPoE
まさにそれだ。統合された可観測性基盤があれば、あの4時間が15分で済んだ可能性がある。組織全体の可観測性を向上させ、プロアクティブな運用を実現する — それが今月のミッションだ

可観測性とは何か

モニタリングとの違い

「モニタリング」と「可観測性」は混同されがちですが、本質的に異なる概念です。

観点モニタリング可観測性
問いの方向事前に定義した問いに答える未知の問いにも答えられる
アプローチ「何を監視するか」を決めてダッシュボードを作るシステムの内部状態を外部出力から推測可能にする
対応タイプリアクティブ(障害発生後に対応)プロアクティブ(障害の予兆を検知)
スケーラビリティ監視対象が増えるとダッシュボードが膨大に高カーディナリティデータの探索で対応
根本原因分析「何が壊れたか」は分かる「なぜ壊れたか」まで追求できる
モニタリング:
  "CPU使用率が90%を超えた" → アラート → 人が調査

可観測性:
  "レイテンシが上昇" → 自動で関連メトリクス・ログ・トレースを相関
  → "特定のエンドポイントで、特定のDBクエリが遅延"
  → "先週のデプロイで追加されたN+1クエリが原因"

「モニタリングは”既知の既知”に対応する。可観測性は”未知の未知”にも対応できる状態を作ることだ」 — 田中VPoE


可観測性の3本柱

可観測性は3つのシグナルタイプ(テレメトリデータ)で構成されます。

シグナル説明答えられる問い代表的ツール
メトリクス時系列の数値データ(集約済み)「何が起きているか」Prometheus, Datadog, CloudWatch
ログ離散的なイベント記録「何が起きたか」の詳細Elasticsearch, Loki, CloudWatch Logs
トレースリクエストの分散処理経路「どう処理されたか」Jaeger, Zipkin, AWS X-Ray

3本柱の相関が鍵

メトリクス: "エラーレートが5%に上昇"
    ↓ 相関
トレース: "サービスBへのリクエストでタイムアウトが多発"
    ↓ 相関
ログ: "サービスBのDBコネクションプールが枯渇、エラー詳細を確認"

根本原因: "昨日のデプロイでコネクションリーク"

3本柱を個別に運用しているだけでは不十分です。それらを相関させて初めて可観測性が実現します。これが多くの組織がつまずくポイントです。


なぜ「組織の」可観測性が重要なのか

チーム単位の可観測性の限界

問題具体的な症状影響
ツールの乱立チームAはDatadog、BはNew Relic、CはCloudWatchコスト増大、知見の断絶
データの断絶サービス間のトレースが途切れる障害時のエンドツーエンド分析が不能
基準の不在ログフォーマットがチームごとに異なる横断的な分析・検索が困難
スキルの偏在特定チームだけが高い可観測性を持つ組織全体の信頼性にばらつき
コストの不透明各チームが個別に契約・運用全社での最適化ができない

組織的な可観測性で実現すること

Before(現状):
  チームA: Datadog + 構造化ログ + 分散トレーシング ← 成熟度高い
  チームB: CloudWatch + 非構造化ログ + トレースなし ← 成熟度低い
  チームC: 自前Prometheus + ファイルログ + なし    ← 成熟度最低
  → サービスA→B→Cのリクエスト追跡が不可能

After(目指す姿):
  全チーム: 統合プラットフォーム + 標準フォーマット + End-to-Endトレース
  → 任意のリクエストを組織全体で追跡可能
  → SLI/SLOに基づくプロアクティブな運用
  → AIOpsによる予防的インシデント検知

Month 6 のロードマップ

Stepテーマ得られる成果
1可観測性の成熟度を評価しよう成熟度評価、現状分析、可観測性戦略のビジョン
2統合可観測性プラットフォームを設計しようプラットフォームアーキテクチャ、データ収集、可視化設計
3SLI/SLO体系を組織に展開しようSLI/SLO戦略、階層設計、エラーバジェットポリシー
4予防的インシデント検知を実現しよう異常検知、アラート設計、AIOps、相関分析
5可観測性文化を醸成しよう文化の要素、オンボーディング、継続的改善サイクル
6可観測性戦略を完成させよう統合可観測性戦略書

「可観測性は”ツールの導入”ではない。“組織の能力”だ。ツールはあくまで手段に過ぎない。文化・プロセス・人を含めた総合的な戦略が必要なんだ」 — 田中VPoE


まとめ

ポイント内容
モニタリング vs 可観測性モニタリングは既知の問題に対応、可観測性は未知の問題も探索可能
3本柱メトリクス、ログ、トレースを相関させることが重要
組織的な課題ツール乱立、データ断絶、基準不在、スキル偏在
目指す姿統合プラットフォーム + SLI/SLO + プロアクティブ運用

チェックリスト

  • モニタリングと可観測性の違いを理解した
  • 3本柱(メトリクス・ログ・トレース)の役割と相関の重要性を理解した
  • チーム単位の可観測性の限界を理解した
  • Month 6のロードマップを把握した

次のステップへ

次は「可観測性成熟度モデル」を学びます。組織の可観測性をどのように段階的に評価し、改善していくかのフレームワークを身につけましょう。


推定読了時間: 15分