ストーリー
田
田中VPoE
文化の4つの柱を理解した。次は具体的な「チームオンボーディング」だ。TaskFlow社は8チーム160名の開発組織だが、可観測性のスキルレベルは大きくばらついている
あなた
先ほどの成熟度評価でも、Level 0のチームが4チームありましたね
あ
田
田中VPoE
そうだ。Level 2のSREチームと、Level 0の通知・連携チームでは「可観測性」という言葉の理解すら異なる。全チームを同じ研修で一律に教育しても効果は薄い。チームの現状レベルに合わせた段階的なオンボーディングが必要だ
あなた
レベル別にプログラムを設計するということですか
あ
田
田中VPoE
その通りだ。「基礎」「実践」「応用」の3段階に分けて、各チームが自分たちのペースで進められるプログラムを設計する。さらに、新入社員向けのオンボーディングと、既存チーム向けのスキルアップを分けて考える必要がある
オンボーディングの全体設計
3段階のオンボーディングプログラム
┌─────────────────────────────────────────────┐
│ Stage 3: 応用(自律的運用) │
│ 対象: Level 2以上のチーム │
│ 目標: AIOps活用、自動修復、文化の伝道 │
│ 期間: 継続的 │
├─────────────────────────────────────────────┤
│ Stage 2: 実践(SLO運用開始) │
│ 対象: Level 1のチーム │
│ 目標: SLI/SLO定義、ダッシュボード運用開始 │
│ 期間: 4週間 │
├─────────────────────────────────────────────┤
│ Stage 1: 基礎(計装とツール習得) │
│ 対象: Level 0のチームと新入社員 │
│ 目標: 基本概念理解、ツール操作、計装の実践 │
│ 期間: 2週間 │
└─────────────────────────────────────────────┘
Stage 1: 基礎(計装とツール習得)
カリキュラム
| 日程 | テーマ | 形式 | 内容 |
|---|
| Day 1 | 可観測性の基本概念 | 座学(2時間) | 3本柱、モニタリングとの違い、なぜ組織的に重要か |
| Day 2 | ツール操作入門 | ハンズオン(3時間) | Datadog/Grafanaの基本操作、ダッシュボードの見方 |
| Day 3 | ログの標準化 | ハンズオン(3時間) | 構造化ログの実装、ログレベルの使い分け |
| Day 4 | メトリクス計装 | ハンズオン(3時間) | OTel SDKの導入、カスタムメトリクスの実装 |
| Day 5 | 分散トレーシング | ハンズオン(3時間) | OTelトレースの導入、トレースの読み方 |
| Day 6-7 | 実践演習 | ペアワーク(各4時間) | 自チームのサービスにOTel計装を導入 |
| Day 8-10 | 振り返りと定着 | チームMTG | 計装レビュー、課題の洗い出し、Stage 2への準備 |
Stage 1の成果基準
| 基準 | 具体的な確認方法 |
|---|
| 概念理解 | 可観測性クイズで80%以上のスコア |
| ツール操作 | ダッシュボードの検索、フィルタ、時間範囲変更が自力でできる |
| ログ計装 | 自チームのサービスに構造化ログが導入されている |
| メトリクス計装 | 基本的なREDメトリクスがOTelで収集されている |
| トレース計装 | サービスの主要エンドポイントでトレースが生成されている |
Stage 2: 実践(SLO運用開始)
カリキュラム
| 週 | テーマ | 形式 | 内容 |
|---|
| Week 1 | SLI/SLO設計 | ワークショップ(4時間) | 自チームサービスのSLI選定、SLO値の設定 |
| Week 1 | ダッシュボード構築 | ハンズオン(3時間) | SLOダッシュボードの構築、エラーバジェット表示 |
| Week 2 | アラート設計 | ワークショップ(3時間) | バーンレートアラートの設定、ランブック作成 |
| Week 2 | オンコール実践 | シャドウイング | SREチームのオンコールに同行して学ぶ |
| Week 3 | インシデント対応 | 模擬演習(3時間) | Game Dayで模擬インシデントを体験 |
| Week 3 | ポストモーテム | ワークショップ(2時間) | ポストモーテムの書き方、非難なき振り返りの実践 |
| Week 4 | 自律運用開始 | OJT | SREサポート付きでの自チーム運用開始 |
Stage 2の成果基準
| 基準 | 具体的な確認方法 |
|---|
| SLI/SLO定義 | 自チームの全サービスにSLI/SLOが定義されている |
| ダッシュボード | SLOダッシュボードが稼働し、チーム定例で確認されている |
| アラート | バーンレートアラートが設定され、ランブックが存在する |
| オンコール | チーム内でオンコールローテーションが開始されている |
| ポストモーテム | インシデント後にポストモーテムが実施されている |
Stage 3: 応用(自律的運用)
継続的な学習プログラム
| プログラム | 頻度 | 内容 | 対象 |
|---|
| Observability Office Hours | 週次 | SREチームへの質問・相談の時間 | 全チーム |
| Advanced Workshop | 月次 | 高度な分析手法、カスタム計装、AIOps | Stage 2修了者 |
| Cross-Team Review | 月次 | 他チームのダッシュボード/アラートのピアレビュー | 可観測性チャンピオン |
| Chaos Engineering | 四半期 | カオスエンジニアリングによる可観測性の検証 | SRE + 各チーム代表 |
| Tech Talk | 隔週 | 社内外の可観測性事例共有 | 全開発者(任意) |
新入社員オンボーディング
オンボーディングチェックリスト
| 期間 | タスク | 完了基準 |
|---|
| Day 1 | 可観測性ツールのアカウント設定 | Datadog/Grafanaにログインできる |
| Day 1 | チームのSLOダッシュボード確認 | 自チームのSLO状態を説明できる |
| Week 1 | Observability 101 研修受講 | クイズ80%以上 |
| Week 2 | オンコールシャドウイング(1回) | オンコール対応の流れを説明できる |
| Week 3 | 計装付きの小さなPRを提出 | ログ/メトリクス/トレースを含むPRがマージされる |
| Month 1 | オンコールローテーションに参加開始 | バディ付きでオンコールを1回担当 |
| Month 2 | 独立してオンコールを担当 | 単独でオンコールを1回完了 |
メンター制度
| 要素 | 内容 |
|---|
| メンター | 同じチームの経験者(1-2年以上在籍) |
| 頻度 | 週1回の1on1(30分) |
| 期間 | 入社後3ヶ月間 |
| 内容 | ツールの使い方、チームの運用慣習、インシデント対応のコツ |
オンボーディング教材の整備
教材体系
| 教材タイプ | 内容 | メンテナンス責任 |
|---|
| Observability Handbook | 組織の可観測性標準、ツール設定ガイド、ベストプラクティス | SREチーム |
| 計装ガイド(言語別) | 各言語のOTel SDK導入手順、サンプルコード | 各チームのチャンピオン |
| ランブック集 | サービス別のインシデント対応手順書 | サービスオーナーチーム |
| 動画研修 | Observability 101の録画、ツール操作デモ | SREチーム |
| FAQ | よくある質問と回答、トラブルシューティング | 全員(Wiki形式) |
教材メンテナンスのルール
| ルール | 内容 |
|---|
| 定期レビュー | 四半期ごとに全教材をレビューし、古くなった情報を更新 |
| インシデント駆動更新 | ポストモーテムで教材のギャップが見つかったら即座に更新 |
| 新サービス対応 | 新サービスのリリース時に計装ガイドとランブックを必ず作成 |
| フィードバック収集 | オンボーディング完了者からのフィードバックを毎回収集 |
オンボーディングの効果測定
測定指標
| 指標 | 測定方法 | 目標値 |
|---|
| Stage 1完了率 | 2週間以内にStage 1を完了したチーム/全対象チーム | 100% |
| Stage 2完了率 | 6週間以内にStage 2を完了したチーム/全対象チーム | 80% |
| 新入社員の計装PR率 | 入社1ヶ月以内に計装PRを出した人/全新入社員 | 90% |
| チーム成熟度向上 | オンボーディング前後の成熟度スコア差分 | +1レベル以上 |
| オンコール参加率 | 入社2ヶ月以内にオンコールに参加した人/全新入社員 | 80% |
| 満足度スコア | オンボーディング完了後のアンケート | 4.0/5.0以上 |
「オンボーディングの真の目的は”知識の伝達”ではなく”行動の変化”だ。研修を受けて知識を得ても、日常業務で実践しなければ意味がない。オンボーディングの成功は”3ヶ月後にチームの行動が変わったか”で測る」 — 田中VPoE
まとめ
| ポイント | 内容 |
|---|
| 3段階プログラム | 基礎(計装)→ 実践(SLO運用)→ 応用(自律運用)の段階設計 |
| レベル別設計 | チームの成熟度に合わせた適切な難度のプログラムを提供 |
| 新入社員対応 | チェックリスト、メンター制度、段階的なオンコール参加で早期戦力化 |
| 効果測定 | 完了率、成熟度向上、行動変化を定量的に測定 |
チェックリスト
次のステップへ
次は「継続的改善サイクル」を学びます。オンボーディングでスタートを切った後、組織の可観測性を継続的に改善し続けるためのサイクルとガバナンスの仕組みを設計しましょう。
推定読了時間: 30分