ストーリー
田
田中VPoE
文化の要素、オンボーディング、継続的改善サイクル — 3つの観点を学んだ。これらを統合して、TaskFlow社の可観測性文化醸成計画を策定してもらう
あなた
技術的な設計だけでなく、人と組織のプランも含めた計画ですね
あ
田
田中VPoE
そうだ。最高のプラットフォームも、使う人が変わらなければ効果を発揮しない。この計画書はCTOとHR部門に提出して、教育予算と時間の確保を承認してもらうためのものだ。具体的な施策、タイムライン、効果測定の仕組みを盛り込んでほしい
ミッション概要
| 項目 | 内容 |
|---|
| 演習タイトル | 可観測性文化醸成計画書 |
| 想定時間 | 60分 |
| 成果物 | 文化醸成計画書(オンボーディング + 継続的改善 + ガバナンス + KPI) |
| 対象組織 | TaskFlow株式会社(前Stepと同一) |
前提条件
チーム別の現状と課題
チーム別の可観測性に対する姿勢:
SRE/インフラチーム(Level 2):
- 可観測性への関心: 非常に高い
- 課題: 他チームのサポートに時間を取られ、自チームの高度化が進まない
- 人数: 15名
APIチーム(Level 2):
- 可観測性への関心: 高い
- 課題: SLOは理解しているがエラーバジェットポリシーの運用経験なし
- 人数: 25名
課金・決済チーム(Level 2):
- 可観測性への関心: 高い(コンプライアンス要件もあり)
- 課題: Datadog依存が強く、標準化への移行に抵抗感
- 人数: 20名
Webフロントチーム(Level 1):
- 可観測性への関心: 中程度
- 課題: RUMは導入済みだがバックエンド連携のトレースがない
- 人数: 25名
モバイルチーム(Level 0):
- 可観測性への関心: 低い(Firebase依存)
- 課題: 「モバイルに可観測性は不要」という認識
- 人数: 20名
検索・分析チーム(Level 0):
- 可観測性への関心: 低い
- 課題: CloudWatch頼みで、チーム独自の知見がない
- 人数: 20名
通知・連携チーム(Level 0):
- 可観測性への関心: 非常に低い
- 課題: アラートすら設定されていない。「障害はSREが見つけてくれる」
- 人数: 15名
データPFチーム(Level 0):
- 可観測性への関心: 低い(バッチ処理中心でリアルタイム性を重視しない)
- 課題: Airflow UIのみで監視。ログはファイル出力
- 人数: 20名
組織の制約
予算制約:
教育・研修年間予算: 500万円(可観測性以外も含む)
可観測性に割ける教育予算: 最大200万円/年
エンジニアの研修参加時間: 月あたり最大2日/人
人的制約:
SREチームのサポート工数: 全体工数の30%まで(残り70%は自チームの業務)
外部コンサルタント: 必要に応じて活用可(予算内)
組織的制約:
全チーム一斉の活動停止: 不可(ビジネス継続が最優先)
段階的な導入: 必須(最大2チーム同時にオンボーディング)
Mission 1: オンボーディング計画
要件
以下を設計してください。
- チーム別オンボーディング計画(8チームの展開順序と理由)
- Stage 1/2の具体的なカリキュラム(各チームの課題に合わせたカスタマイズ)
- リソース計画(SREチームの工数配分、教材準備)
解答例
展開順序
| フェーズ | 期間 | 対象チーム | Stage | 理由 |
|---|
| Phase 0 | 月1 | SRE + API + 課金 | Stage 3開始 | 既にLevel 2。チャンピオン候補の育成 |
| Phase 1 | 月2-3 | Webフロント + 通知・連携 | Stage 1→2 | Webは関心あり移行が容易。通知はインシデントボトルネック |
| Phase 2 | 月4-5 | モバイル + 検索・分析 | Stage 1→2 | Phase 1の知見を活かし、抵抗感のあるチームを支援 |
| Phase 3 | 月6-7 | データPF | Stage 1→2 | バッチ中心で最も特殊。個別対応が必要 |
カリキュラムのカスタマイズ
通知・連携チーム(最優先。インシデントボトルネック):
- Stage 1を「アラート設定」を重点化して実施
- 過去のインシデント事例を使った「なぜ可観測性が必要か」の動機づけ
- SREチームからのバディ(2名)を配置
モバイルチーム(認識変革が必要):
- 「モバイルの可観測性」に特化したケーススタディを事前準備
- Firebase + OTelの連携パターンを具体的に示す
- RUM(Real User Monitoring)との統合を重点的にカバー
リソース計画
| リソース | 月間工数 | 内容 |
|---|
| SREサポート | 3名分(全15名の20%) | オンボーディング講師、バディ、教材作成 |
| 教材準備 | 1名分(初期のみ2ヶ月) | 動画教材、ハンズオン環境、言語別ガイド |
| 外部講師 | 2日/四半期(50万円/年) | 上級ワークショップ |
| 合計年間コスト | 150万円(予算200万円内) | 外部講師 + 教材制作費 + ツールライセンス |
Mission 2: 継続的改善とガバナンスの設計
要件
以下を設計してください。
- ガバナンスボードの設計(メンバー構成、権限、活動)
- 改善サイクルの具体的なプロセス(短期・中期・長期)
- チャンピオンプログラムの詳細設計
解答例
ガバナンスボード
| 役割 | メンバー | 権限 |
|---|
| 議長 | 田中VPoE | 予算承認、組織方針決定 |
| 推進リーダー | SREリード | 日常推進、KPI管理、チーム支援調整 |
| チーム代表 | 8チームの可観測性チャンピオン | チーム内推進、課題エスカレーション |
| PdM代表 | PdMリード | SLOとプロダクトロードマップの整合 |
改善サイクル
短期(毎スプリント):
| ルール | 内容 |
|---|
| 計装レビュー必須化 | 新エンドポイント/エラーハンドリングのPRに計装があることを確認 |
| 改善タスク20% | 各スプリントの20%を可観測性改善に割り当て |
| デプロイ後確認 | デプロイ後15分間のメトリクス確認を義務化 |
中期(四半期):
| ステップ | 内容 |
|---|
| 成熟度再評価 | 全チームの6軸スコアリングを再実施 |
| 目標設定 | 次四半期の改善目標をチーム別に設定 |
| リソース調整 | SREサポートの配分を成熟度に応じて調整 |
長期(半期):
| ステップ | 内容 |
|---|
| 戦略レビュー | 可観測性戦略全体の見直し |
| 投資判断 | ROI実績に基づく予算の増減判断 |
| ツール評価 | 新しいツール/手法の採用検討 |
チャンピオンプログラム
| 項目 | 内容 |
|---|
| 選出 | 各チームから1名、本人の自発的立候補 + チームリード推薦 |
| 特典 | 外部カンファレンス参加費補助(年1回)、スキルアップ時間の確保(週2時間) |
| 活動 | チーム内推進、隔週チャンピオン定例参加、ナレッジ共有 |
| 評価 | チームの成熟度向上を人事評価に反映 |
Mission 3: KPIと効果測定
要件
以下を設計してください。
- 文化醸成のKPI(定量指標と定性指標)
- 12ヶ月ロードマップ(マイルストーン付き)
- 成功/失敗の判断基準
解答例
KPI設計
定量指標:
| KPI | 現状 | 3ヶ月 | 6ヶ月 | 12ヶ月 |
|---|
| 組織平均成熟度 | L1.0 | L1.3 | L1.8 | L2.5 |
| Level 0チーム数 | 4 | 2 | 0 | 0 |
| SLO定義済みサービス数 | 3/15 | 6/15 | 12/15 | 15/15 |
| PRの計装含有率 | 10% | 30% | 50% | 70% |
| オンコール参加チーム数 | 3/8 | 5/8 | 7/8 | 8/8 |
| ポストモーテム実施率 | 30% | 60% | 80% | 95% |
| 平均MTTR | 3.5h | 2.5h | 1.5h | 45min |
定性指標(四半期アンケート):
| 質問 | 目標スコア(5段階) |
|---|
| 「チームのサービスの状態を常に把握できている」 | 4.0以上 |
| 「データに基づいて意思決定している」 | 4.0以上 |
| 「可観測性ツールの使い方に自信がある」 | 3.5以上 |
| 「ポストモーテムは学びの場だと感じる」 | 4.0以上 |
| 「オンコールは成長の機会だと感じる」 | 3.5以上 |
12ヶ月ロードマップ
| 月 | マイルストーン |
|---|
| 1 | ガバナンスボード発足、チャンピオン選出完了 |
| 2-3 | Phase 1オンボーディング完了(Web, 通知チーム) |
| 3 | 週次SLOレビュー開始(Tier 1サービス) |
| 4-5 | Phase 2オンボーディング完了(モバイル, 検索チーム) |
| 6 | 全チームLevel 1以上達成。月次レビュー開始 |
| 6-7 | Phase 3オンボーディング完了(データPFチーム) |
| 9 | 全サービスSLO定義完了。四半期レビュー初回実施 |
| 12 | 組織平均Level 2.5達成。年次戦略レビュー |
成功/失敗の判断基準
| 判断 | 基準 |
|---|
| 大成功 | 組織平均L2.5以上、MTTR 45分以下、全チームオンコール参加 |
| 成功 | 組織平均L2.0以上、MTTR 1.5時間以下、Level 0チームゼロ |
| 要改善 | 組織平均L1.5以上だがL2.0未満、一部チームの参加が低調 |
| 失敗 | 組織平均L1.5未満、Level 0チームが残存、主要KPI未達 |
達成度チェック
| 観点 | 達成基準 |
|---|
| 展開計画の現実性 | チームの制約とリソースを考慮した段階的な計画になっている |
| カスタマイズ | チームの課題に応じたオンボーディングのカスタマイズが含まれている |
| ガバナンス | 明確な推進体制とレビューサイクルが設計されている |
| KPIの具体性 | 定量的なKPIと時間軸に沿った目標値が設定されている |
| 持続可能性 | 一時的なプロジェクトではなく、継続的な仕組みとして設計されている |
推定所要時間: 60分