LESSON 30分

ストーリー

田中VPoE
文化の4つの柱を理解した。次は具体的な「チームオンボーディング」だ。TaskFlow社は8チーム160名の開発組織だが、可観測性のスキルレベルは大きくばらついている
あなた
先ほどの成熟度評価でも、Level 0のチームが4チームありましたね
田中VPoE
そうだ。Level 2のSREチームと、Level 0の通知・連携チームでは「可観測性」という言葉の理解すら異なる。全チームを同じ研修で一律に教育しても効果は薄い。チームの現状レベルに合わせた段階的なオンボーディングが必要だ
あなた
レベル別にプログラムを設計するということですか
田中VPoE
その通りだ。「基礎」「実践」「応用」の3段階に分けて、各チームが自分たちのペースで進められるプログラムを設計する。さらに、新入社員向けのオンボーディングと、既存チーム向けのスキルアップを分けて考える必要がある

オンボーディングの全体設計

3段階のオンボーディングプログラム

┌─────────────────────────────────────────────┐
│ Stage 3: 応用(自律的運用)                    │
│ 対象: Level 2以上のチーム                     │
│ 目標: AIOps活用、自動修復、文化の伝道         │
│ 期間: 継続的                                 │
├─────────────────────────────────────────────┤
│ Stage 2: 実践(SLO運用開始)                  │
│ 対象: Level 1のチーム                        │
│ 目標: SLI/SLO定義、ダッシュボード運用開始     │
│ 期間: 4週間                                  │
├─────────────────────────────────────────────┤
│ Stage 1: 基礎(計装とツール習得)              │
│ 対象: Level 0のチームと新入社員               │
│ 目標: 基本概念理解、ツール操作、計装の実践     │
│ 期間: 2週間                                  │
└─────────────────────────────────────────────┘

Stage 1: 基礎(計装とツール習得)

カリキュラム

日程テーマ形式内容
Day 1可観測性の基本概念座学(2時間)3本柱、モニタリングとの違い、なぜ組織的に重要か
Day 2ツール操作入門ハンズオン(3時間)Datadog/Grafanaの基本操作、ダッシュボードの見方
Day 3ログの標準化ハンズオン(3時間)構造化ログの実装、ログレベルの使い分け
Day 4メトリクス計装ハンズオン(3時間)OTel SDKの導入、カスタムメトリクスの実装
Day 5分散トレーシングハンズオン(3時間)OTelトレースの導入、トレースの読み方
Day 6-7実践演習ペアワーク(各4時間)自チームのサービスにOTel計装を導入
Day 8-10振り返りと定着チームMTG計装レビュー、課題の洗い出し、Stage 2への準備

Stage 1の成果基準

基準具体的な確認方法
概念理解可観測性クイズで80%以上のスコア
ツール操作ダッシュボードの検索、フィルタ、時間範囲変更が自力でできる
ログ計装自チームのサービスに構造化ログが導入されている
メトリクス計装基本的なREDメトリクスがOTelで収集されている
トレース計装サービスの主要エンドポイントでトレースが生成されている

Stage 2: 実践(SLO運用開始)

カリキュラム

テーマ形式内容
Week 1SLI/SLO設計ワークショップ(4時間)自チームサービスのSLI選定、SLO値の設定
Week 1ダッシュボード構築ハンズオン(3時間)SLOダッシュボードの構築、エラーバジェット表示
Week 2アラート設計ワークショップ(3時間)バーンレートアラートの設定、ランブック作成
Week 2オンコール実践シャドウイングSREチームのオンコールに同行して学ぶ
Week 3インシデント対応模擬演習(3時間)Game Dayで模擬インシデントを体験
Week 3ポストモーテムワークショップ(2時間)ポストモーテムの書き方、非難なき振り返りの実践
Week 4自律運用開始OJTSREサポート付きでの自チーム運用開始

Stage 2の成果基準

基準具体的な確認方法
SLI/SLO定義自チームの全サービスにSLI/SLOが定義されている
ダッシュボードSLOダッシュボードが稼働し、チーム定例で確認されている
アラートバーンレートアラートが設定され、ランブックが存在する
オンコールチーム内でオンコールローテーションが開始されている
ポストモーテムインシデント後にポストモーテムが実施されている

Stage 3: 応用(自律的運用)

継続的な学習プログラム

プログラム頻度内容対象
Observability Office Hours週次SREチームへの質問・相談の時間全チーム
Advanced Workshop月次高度な分析手法、カスタム計装、AIOpsStage 2修了者
Cross-Team Review月次他チームのダッシュボード/アラートのピアレビュー可観測性チャンピオン
Chaos Engineering四半期カオスエンジニアリングによる可観測性の検証SRE + 各チーム代表
Tech Talk隔週社内外の可観測性事例共有全開発者(任意)

新入社員オンボーディング

オンボーディングチェックリスト

期間タスク完了基準
Day 1可観測性ツールのアカウント設定Datadog/Grafanaにログインできる
Day 1チームのSLOダッシュボード確認自チームのSLO状態を説明できる
Week 1Observability 101 研修受講クイズ80%以上
Week 2オンコールシャドウイング(1回)オンコール対応の流れを説明できる
Week 3計装付きの小さなPRを提出ログ/メトリクス/トレースを含むPRがマージされる
Month 1オンコールローテーションに参加開始バディ付きでオンコールを1回担当
Month 2独立してオンコールを担当単独でオンコールを1回完了

メンター制度

要素内容
メンター同じチームの経験者(1-2年以上在籍)
頻度週1回の1on1(30分)
期間入社後3ヶ月間
内容ツールの使い方、チームの運用慣習、インシデント対応のコツ

オンボーディング教材の整備

教材体系

教材タイプ内容メンテナンス責任
Observability Handbook組織の可観測性標準、ツール設定ガイド、ベストプラクティスSREチーム
計装ガイド(言語別)各言語のOTel SDK導入手順、サンプルコード各チームのチャンピオン
ランブック集サービス別のインシデント対応手順書サービスオーナーチーム
動画研修Observability 101の録画、ツール操作デモSREチーム
FAQよくある質問と回答、トラブルシューティング全員(Wiki形式)

教材メンテナンスのルール

ルール内容
定期レビュー四半期ごとに全教材をレビューし、古くなった情報を更新
インシデント駆動更新ポストモーテムで教材のギャップが見つかったら即座に更新
新サービス対応新サービスのリリース時に計装ガイドとランブックを必ず作成
フィードバック収集オンボーディング完了者からのフィードバックを毎回収集

オンボーディングの効果測定

測定指標

指標測定方法目標値
Stage 1完了率2週間以内にStage 1を完了したチーム/全対象チーム100%
Stage 2完了率6週間以内にStage 2を完了したチーム/全対象チーム80%
新入社員の計装PR率入社1ヶ月以内に計装PRを出した人/全新入社員90%
チーム成熟度向上オンボーディング前後の成熟度スコア差分+1レベル以上
オンコール参加率入社2ヶ月以内にオンコールに参加した人/全新入社員80%
満足度スコアオンボーディング完了後のアンケート4.0/5.0以上

「オンボーディングの真の目的は”知識の伝達”ではなく”行動の変化”だ。研修を受けて知識を得ても、日常業務で実践しなければ意味がない。オンボーディングの成功は”3ヶ月後にチームの行動が変わったか”で測る」 — 田中VPoE


まとめ

ポイント内容
3段階プログラム基礎(計装)→ 実践(SLO運用)→ 応用(自律運用)の段階設計
レベル別設計チームの成熟度に合わせた適切な難度のプログラムを提供
新入社員対応チェックリスト、メンター制度、段階的なオンコール参加で早期戦力化
効果測定完了率、成熟度向上、行動変化を定量的に測定

チェックリスト

  • 3段階のオンボーディングプログラムの設計を理解した
  • 各Stageの成果基準と確認方法を理解した
  • 新入社員向けオンボーディングの具体的なフローを理解した
  • オンボーディングの効果測定方法を理解した

次のステップへ

次は「継続的改善サイクル」を学びます。オンボーディングでスタートを切った後、組織の可観測性を継続的に改善し続けるためのサイクルとガバナンスの仕組みを設計しましょう。


推定読了時間: 30分