EXERCISE 60分

ストーリー

田中VPoE
文化の要素、オンボーディング、継続的改善サイクル — 3つの観点を学んだ。これらを統合して、TaskFlow社の可観測性文化醸成計画を策定してもらう
あなた
技術的な設計だけでなく、人と組織のプランも含めた計画ですね
田中VPoE
そうだ。最高のプラットフォームも、使う人が変わらなければ効果を発揮しない。この計画書はCTOとHR部門に提出して、教育予算と時間の確保を承認してもらうためのものだ。具体的な施策、タイムライン、効果測定の仕組みを盛り込んでほしい

ミッション概要

項目内容
演習タイトル可観測性文化醸成計画書
想定時間60分
成果物文化醸成計画書(オンボーディング + 継続的改善 + ガバナンス + KPI)
対象組織TaskFlow株式会社(前Stepと同一)

前提条件

チーム別の現状と課題

チーム別の可観測性に対する姿勢:

SRE/インフラチーム(Level 2):
  - 可観測性への関心: 非常に高い
  - 課題: 他チームのサポートに時間を取られ、自チームの高度化が進まない
  - 人数: 15名

APIチーム(Level 2):
  - 可観測性への関心: 高い
  - 課題: SLOは理解しているがエラーバジェットポリシーの運用経験なし
  - 人数: 25名

課金・決済チーム(Level 2):
  - 可観測性への関心: 高い(コンプライアンス要件もあり)
  - 課題: Datadog依存が強く、標準化への移行に抵抗感
  - 人数: 20名

Webフロントチーム(Level 1):
  - 可観測性への関心: 中程度
  - 課題: RUMは導入済みだがバックエンド連携のトレースがない
  - 人数: 25名

モバイルチーム(Level 0):
  - 可観測性への関心: 低い(Firebase依存)
  - 課題: 「モバイルに可観測性は不要」という認識
  - 人数: 20名

検索・分析チーム(Level 0):
  - 可観測性への関心: 低い
  - 課題: CloudWatch頼みで、チーム独自の知見がない
  - 人数: 20名

通知・連携チーム(Level 0):
  - 可観測性への関心: 非常に低い
  - 課題: アラートすら設定されていない。「障害はSREが見つけてくれる」
  - 人数: 15名

データPFチーム(Level 0):
  - 可観測性への関心: 低い(バッチ処理中心でリアルタイム性を重視しない)
  - 課題: Airflow UIのみで監視。ログはファイル出力
  - 人数: 20名

組織の制約

予算制約:
  教育・研修年間予算: 500万円(可観測性以外も含む)
  可観測性に割ける教育予算: 最大200万円/年
  エンジニアの研修参加時間: 月あたり最大2日/人

人的制約:
  SREチームのサポート工数: 全体工数の30%まで(残り70%は自チームの業務)
  外部コンサルタント: 必要に応じて活用可(予算内)

組織的制約:
  全チーム一斉の活動停止: 不可(ビジネス継続が最優先)
  段階的な導入: 必須(最大2チーム同時にオンボーディング)

Mission 1: オンボーディング計画

要件

以下を設計してください。

  1. チーム別オンボーディング計画(8チームの展開順序と理由)
  2. Stage 1/2の具体的なカリキュラム(各チームの課題に合わせたカスタマイズ)
  3. リソース計画(SREチームの工数配分、教材準備)
解答例

展開順序

フェーズ期間対象チームStage理由
Phase 0月1SRE + API + 課金Stage 3開始既にLevel 2。チャンピオン候補の育成
Phase 1月2-3Webフロント + 通知・連携Stage 1→2Webは関心あり移行が容易。通知はインシデントボトルネック
Phase 2月4-5モバイル + 検索・分析Stage 1→2Phase 1の知見を活かし、抵抗感のあるチームを支援
Phase 3月6-7データPFStage 1→2バッチ中心で最も特殊。個別対応が必要

カリキュラムのカスタマイズ

通知・連携チーム(最優先。インシデントボトルネック):

  • Stage 1を「アラート設定」を重点化して実施
  • 過去のインシデント事例を使った「なぜ可観測性が必要か」の動機づけ
  • SREチームからのバディ(2名)を配置

モバイルチーム(認識変革が必要):

  • 「モバイルの可観測性」に特化したケーススタディを事前準備
  • Firebase + OTelの連携パターンを具体的に示す
  • RUM(Real User Monitoring)との統合を重点的にカバー

リソース計画

リソース月間工数内容
SREサポート3名分(全15名の20%)オンボーディング講師、バディ、教材作成
教材準備1名分(初期のみ2ヶ月)動画教材、ハンズオン環境、言語別ガイド
外部講師2日/四半期(50万円/年)上級ワークショップ
合計年間コスト150万円(予算200万円内)外部講師 + 教材制作費 + ツールライセンス

Mission 2: 継続的改善とガバナンスの設計

要件

以下を設計してください。

  1. ガバナンスボードの設計(メンバー構成、権限、活動)
  2. 改善サイクルの具体的なプロセス(短期・中期・長期)
  3. チャンピオンプログラムの詳細設計
解答例

ガバナンスボード

役割メンバー権限
議長田中VPoE予算承認、組織方針決定
推進リーダーSREリード日常推進、KPI管理、チーム支援調整
チーム代表8チームの可観測性チャンピオンチーム内推進、課題エスカレーション
PdM代表PdMリードSLOとプロダクトロードマップの整合

改善サイクル

短期(毎スプリント):

ルール内容
計装レビュー必須化新エンドポイント/エラーハンドリングのPRに計装があることを確認
改善タスク20%各スプリントの20%を可観測性改善に割り当て
デプロイ後確認デプロイ後15分間のメトリクス確認を義務化

中期(四半期):

ステップ内容
成熟度再評価全チームの6軸スコアリングを再実施
目標設定次四半期の改善目標をチーム別に設定
リソース調整SREサポートの配分を成熟度に応じて調整

長期(半期):

ステップ内容
戦略レビュー可観測性戦略全体の見直し
投資判断ROI実績に基づく予算の増減判断
ツール評価新しいツール/手法の採用検討

チャンピオンプログラム

項目内容
選出各チームから1名、本人の自発的立候補 + チームリード推薦
特典外部カンファレンス参加費補助(年1回)、スキルアップ時間の確保(週2時間)
活動チーム内推進、隔週チャンピオン定例参加、ナレッジ共有
評価チームの成熟度向上を人事評価に反映

Mission 3: KPIと効果測定

要件

以下を設計してください。

  1. 文化醸成のKPI(定量指標と定性指標)
  2. 12ヶ月ロードマップ(マイルストーン付き)
  3. 成功/失敗の判断基準
解答例

KPI設計

定量指標:

KPI現状3ヶ月6ヶ月12ヶ月
組織平均成熟度L1.0L1.3L1.8L2.5
Level 0チーム数4200
SLO定義済みサービス数3/156/1512/1515/15
PRの計装含有率10%30%50%70%
オンコール参加チーム数3/85/87/88/8
ポストモーテム実施率30%60%80%95%
平均MTTR3.5h2.5h1.5h45min

定性指標(四半期アンケート):

質問目標スコア(5段階)
「チームのサービスの状態を常に把握できている」4.0以上
「データに基づいて意思決定している」4.0以上
「可観測性ツールの使い方に自信がある」3.5以上
「ポストモーテムは学びの場だと感じる」4.0以上
「オンコールは成長の機会だと感じる」3.5以上

12ヶ月ロードマップ

マイルストーン
1ガバナンスボード発足、チャンピオン選出完了
2-3Phase 1オンボーディング完了(Web, 通知チーム)
3週次SLOレビュー開始(Tier 1サービス)
4-5Phase 2オンボーディング完了(モバイル, 検索チーム)
6全チームLevel 1以上達成。月次レビュー開始
6-7Phase 3オンボーディング完了(データPFチーム)
9全サービスSLO定義完了。四半期レビュー初回実施
12組織平均Level 2.5達成。年次戦略レビュー

成功/失敗の判断基準

判断基準
大成功組織平均L2.5以上、MTTR 45分以下、全チームオンコール参加
成功組織平均L2.0以上、MTTR 1.5時間以下、Level 0チームゼロ
要改善組織平均L1.5以上だがL2.0未満、一部チームの参加が低調
失敗組織平均L1.5未満、Level 0チームが残存、主要KPI未達

達成度チェック

観点達成基準
展開計画の現実性チームの制約とリソースを考慮した段階的な計画になっている
カスタマイズチームの課題に応じたオンボーディングのカスタマイズが含まれている
ガバナンス明確な推進体制とレビューサイクルが設計されている
KPIの具体性定量的なKPIと時間軸に沿った目標値が設定されている
持続可能性一時的なプロジェクトではなく、継続的な仕組みとして設計されている

推定所要時間: 60分