LESSON 30分

ストーリー

田中VPoE
SRE組織の設計、SLO、オンコール、ポストモーテム — プロセスと仕組みは整った。だが、これを実行する「人」がいなければ絵に描いた餅だ
あなた
SREエンジニアの採用と育成ですね
田中VPoE
そうだ。だが「SREエンジニア」といっても、何ができればSREなのか? インフラエンジニアとの違いは? 開発者との違いは? これが明確でないと、採用も育成もブレる
あなた
SREに必要なスキルセットを定義する必要がありますね
田中VPoE
その通り。そして重要なのは、全員がすべてのスキルを持つ必要はないということだ。チームとして網羅的にカバーできればいい

SREの技術スキル

コアスキル

スキル領域具体的なスキル重要度
プログラミングPython, Go, TypeScript でのツール開発必須
システム設計分散システム、マイクロサービス設計必須
可観測性メトリクス、ログ、トレース(Prometheus, Grafana, Datadog等)必須
インフラLinux, ネットワーク, クラウド(AWS/GCP/Azure)必須
IaCTerraform, CDK, Kubernetes マニフェスト重要
CI/CDパイプライン設計、デプロイ自動化重要
データベースRDBMS, NoSQL, パフォーマンスチューニング重要
セキュリティネットワークセキュリティ、認証・認可有用

SREとインフラエンジニアの違い

観点インフラエンジニアSRE
主な仕事インフラの構築・運用信頼性のエンジニアリング
コーディングスクリプト程度本格的なソフトウェア開発
視点インフラ中心ユーザー体験中心
目標安定したインフラSLOの達成とエラーバジェットの管理
自動化運用タスクの効率化トイルの根本的な解消

SREのソフトスキル

必須のソフトスキル

スキルなぜ必要か発揮する場面
コミュニケーション開発チームとの協業、経営層への報告SLOレビュー、インシデント対応
問題解決複雑な分散システムの障害切り分けインシデント調査、根本原因分析
プレッシャー耐性本番障害時の冷静な判断オンコール対応、SEV1インシデント
教育・メンタリング開発チームへのSRE文化浸透コンサルティング、研修
データ駆動思考感覚ではなくデータに基づく意思決定SLOレビュー、改善提案

スキルマトリクスの設計

レベル定義

レベル定義基準
L1: 基礎指導のもとで実行できるランブックに従って対応できる
L2: 実践独立して実行できる標準的な問題を単独で解決できる
L3: 熟練他者を指導できる複雑な問題を解決し、ベストプラクティスを策定できる
L4: エキスパート組織をリードできる戦略策定、アーキテクチャ設計、組織改善をリードできる

チームスキルマトリクス

スキルSREリードSREエンジニア運用→SRE転換
プログラミングL4L3L1→L2
可観測性L3L3L2→L3
インフラL3L2L3(既存スキル)
SLI/SLO設計L4L3L1→L2
インシデント管理L4L3L2(経験あり)
自動化L3L3L1→L2

チームとしてのカバレッジ

目標: 各スキル領域で最低1名がL3以上

現状の課題:
  プログラミング: SREリード(L4)のみL3以上 → 運用チームのスキルアップ必要
  SLI/SLO設計: SREリード(L4)のみ → SREエンジニアの育成が急務
  自動化: L3が2名 → 十分だが拡大が望ましい

6ヶ月後の目標:
  全スキル領域でL3以上が2名以上

キャリアパスの設計

SREキャリアラダー

レベル役割責務年数目安
Junior SREメンバーランブック対応、モニタリング設定0-2年
SREメンバーSLO設計、自動化開発、IC担当2-4年
Senior SREテックリードアーキテクチャ設計、ポリシー策定4-7年
Staff SRE組織リード組織戦略、技術選定、メンタリング7年以上
SRE Managerマネージャーチーム管理、採用、経営層との橋渡し5年以上

既存運用チームからの転換パス

現在: インフラエンジニア
  ↓ Phase 1(0-3ヶ月): SRE基礎研修
  ↓   - SLI/SLO/エラーバジェットの学習
  ↓   - プログラミングスキルの強化
  ↓   - 可観測性ツールの習得

  ↓ Phase 2(3-6ヶ月): OJT
  ↓   - オンコールシャドーイング
  ↓   - ランブック作成
  ↓   - 自動化スクリプト開発

  ↓ Phase 3(6-12ヶ月): 実践
  ↓   - 独立したオンコール対応
  ↓   - SLO設計への参画
  ↓   - ポストモーテムのファシリテーション

目標: SREエンジニア(L2レベル)

まとめ

ポイント内容
SREのスキルコーディング力が従来運用エンジニアとの最大の違い
チーム設計全員が全スキルを持つ必要はない。チームとしてカバーする
キャリアパス既存運用チームからの転換パスを明確に定義する

チェックリスト

  • SREに必要な技術スキルとソフトスキルを理解した
  • スキルマトリクスの設計方法を理解した
  • SREキャリアラダーと転換パスを理解した

次のステップへ

次は「SRE採用戦略」です。SREエンジニアの採用における課題と戦略を学びましょう。


推定読了時間: 30分