可観測性の現在地 - L0 カリキュラム

ストーリー

田

田中VPoE

今月のテーマは「可観測性（Observability）」だ。率直に言う — うちの組織は「何が起きているか分からない」状態のシステムだらけだ

あなた

ログは取っているはずですが…

あ

田

田中VPoE

ログは取っている。メトリクスも一部ある。トレースも特定チームは導入済みだ。だが、それらがバラバラに存在していて「組織として」何が起きているかを俯瞰できない。先月のインシデント対応を覚えているか？

あなた

原因特定に4時間かかったやつですね。3チームのログを突き合わせて、やっとリクエストの流れが追えた

あ

田

田中VPoE

まさにそれだ。統合された可観測性基盤があれば、あの4時間が15分で済んだ可能性がある。組織全体の可観測性を向上させ、プロアクティブな運用を実現する — それが今月のミッションだ

可観測性とは何か

モニタリングとの違い

「モニタリング」と「可観測性」は混同されがちですが、本質的に異なる概念です。

観点	モニタリング	可観測性
問いの方向	事前に定義した問いに答える	未知の問いにも答えられる
アプローチ	「何を監視するか」を決めてダッシュボードを作る	システムの内部状態を外部出力から推測可能にする
対応タイプ	リアクティブ（障害発生後に対応）	プロアクティブ（障害の予兆を検知）
スケーラビリティ	監視対象が増えるとダッシュボードが膨大に	高カーディナリティデータの探索で対応
根本原因分析	「何が壊れたか」は分かる	「なぜ壊れたか」まで追求できる

モニタリング:
  "CPU使用率が90%を超えた" → アラート → 人が調査

可観測性:
  "レイテンシが上昇" → 自動で関連メトリクス・ログ・トレースを相関
  → "特定のエンドポイントで、特定のDBクエリが遅延"
  → "先週のデプロイで追加されたN+1クエリが原因"

「モニタリングは”既知の既知”に対応する。可観測性は”未知の未知”にも対応できる状態を作ることだ」 — 田中VPoE

可観測性の3本柱

可観測性は3つのシグナルタイプ（テレメトリデータ）で構成されます。

シグナル	説明	答えられる問い	代表的ツール
メトリクス	時系列の数値データ（集約済み）	「何が起きているか」	Prometheus, Datadog, CloudWatch
ログ	離散的なイベント記録	「何が起きたか」の詳細	Elasticsearch, Loki, CloudWatch Logs
トレース	リクエストの分散処理経路	「どう処理されたか」	Jaeger, Zipkin, AWS X-Ray

3本柱の相関が鍵

メトリクス: "エラーレートが5%に上昇"
    ↓ 相関
トレース: "サービスBへのリクエストでタイムアウトが多発"
    ↓ 相関
ログ: "サービスBのDBコネクションプールが枯渇、エラー詳細を確認"
    ↓
根本原因: "昨日のデプロイでコネクションリーク"

3本柱を個別に運用しているだけでは不十分です。それらを相関させて初めて可観測性が実現します。これが多くの組織がつまずくポイントです。

なぜ「組織の」可観測性が重要なのか

チーム単位の可観測性の限界

問題	具体的な症状	影響
ツールの乱立	チームAはDatadog、BはNew Relic、CはCloudWatch	コスト増大、知見の断絶
データの断絶	サービス間のトレースが途切れる	障害時のエンドツーエンド分析が不能
基準の不在	ログフォーマットがチームごとに異なる	横断的な分析・検索が困難
スキルの偏在	特定チームだけが高い可観測性を持つ	組織全体の信頼性にばらつき
コストの不透明	各チームが個別に契約・運用	全社での最適化ができない

組織的な可観測性で実現すること

Before（現状）:
  チームA: Datadog + 構造化ログ + 分散トレーシング ← 成熟度高い
  チームB: CloudWatch + 非構造化ログ + トレースなし ← 成熟度低い
  チームC: 自前Prometheus + ファイルログ + なし    ← 成熟度最低
  → サービスA→B→Cのリクエスト追跡が不可能

After（目指す姿）:
  全チーム: 統合プラットフォーム + 標準フォーマット + End-to-Endトレース
  → 任意のリクエストを組織全体で追跡可能
  → SLI/SLOに基づくプロアクティブな運用
  → AIOpsによる予防的インシデント検知

Month 6 のロードマップ

Step	テーマ	得られる成果
1	可観測性の成熟度を評価しよう	成熟度評価、現状分析、可観測性戦略のビジョン
2	統合可観測性プラットフォームを設計しよう	プラットフォームアーキテクチャ、データ収集、可視化設計
3	SLI/SLO体系を組織に展開しよう	SLI/SLO戦略、階層設計、エラーバジェットポリシー
4	予防的インシデント検知を実現しよう	異常検知、アラート設計、AIOps、相関分析
5	可観測性文化を醸成しよう	文化の要素、オンボーディング、継続的改善サイクル
6	可観測性戦略を完成させよう	統合可観測性戦略書

「可観測性は”ツールの導入”ではない。“組織の能力”だ。ツールはあくまで手段に過ぎない。文化・プロセス・人を含めた総合的な戦略が必要なんだ」 — 田中VPoE

まとめ

ポイント	内容
モニタリング vs 可観測性	モニタリングは既知の問題に対応、可観測性は未知の問題も探索可能
3本柱	メトリクス、ログ、トレースを相関させることが重要
組織的な課題	ツール乱立、データ断絶、基準不在、スキル偏在
目指す姿	統合プラットフォーム + SLI/SLO + プロアクティブ運用

チェックリスト

モニタリングと可観測性の違いを理解した
3本柱（メトリクス・ログ・トレース）の役割と相関の重要性を理解した
チーム単位の可観測性の限界を理解した
Month 6のロードマップを把握した

次のステップへ

次は「可観測性成熟度モデル」を学びます。組織の可観測性をどのように段階的に評価し、改善していくかのフレームワークを身につけましょう。

推定読了時間: 15分