ストーリー
田
田中VPoE
SRE組織の設計、SLO、オンコール、ポストモーテム — プロセスと仕組みは整った。だが、これを実行する「人」がいなければ絵に描いた餅だ
田
田中VPoE
そうだ。だが「SREエンジニア」といっても、何ができればSREなのか? インフラエンジニアとの違いは? 開発者との違いは? これが明確でないと、採用も育成もブレる
あなた
SREに必要なスキルセットを定義する必要がありますね
あ
田
田中VPoE
その通り。そして重要なのは、全員がすべてのスキルを持つ必要はないということだ。チームとして網羅的にカバーできればいい
SREの技術スキル
コアスキル
| スキル領域 | 具体的なスキル | 重要度 |
|---|
| プログラミング | Python, Go, TypeScript でのツール開発 | 必須 |
| システム設計 | 分散システム、マイクロサービス設計 | 必須 |
| 可観測性 | メトリクス、ログ、トレース(Prometheus, Grafana, Datadog等) | 必須 |
| インフラ | Linux, ネットワーク, クラウド(AWS/GCP/Azure) | 必須 |
| IaC | Terraform, CDK, Kubernetes マニフェスト | 重要 |
| CI/CD | パイプライン設計、デプロイ自動化 | 重要 |
| データベース | RDBMS, NoSQL, パフォーマンスチューニング | 重要 |
| セキュリティ | ネットワークセキュリティ、認証・認可 | 有用 |
SREとインフラエンジニアの違い
| 観点 | インフラエンジニア | SRE |
|---|
| 主な仕事 | インフラの構築・運用 | 信頼性のエンジニアリング |
| コーディング | スクリプト程度 | 本格的なソフトウェア開発 |
| 視点 | インフラ中心 | ユーザー体験中心 |
| 目標 | 安定したインフラ | SLOの達成とエラーバジェットの管理 |
| 自動化 | 運用タスクの効率化 | トイルの根本的な解消 |
SREのソフトスキル
必須のソフトスキル
| スキル | なぜ必要か | 発揮する場面 |
|---|
| コミュニケーション | 開発チームとの協業、経営層への報告 | SLOレビュー、インシデント対応 |
| 問題解決 | 複雑な分散システムの障害切り分け | インシデント調査、根本原因分析 |
| プレッシャー耐性 | 本番障害時の冷静な判断 | オンコール対応、SEV1インシデント |
| 教育・メンタリング | 開発チームへのSRE文化浸透 | コンサルティング、研修 |
| データ駆動思考 | 感覚ではなくデータに基づく意思決定 | SLOレビュー、改善提案 |
スキルマトリクスの設計
レベル定義
| レベル | 定義 | 基準 |
|---|
| L1: 基礎 | 指導のもとで実行できる | ランブックに従って対応できる |
| L2: 実践 | 独立して実行できる | 標準的な問題を単独で解決できる |
| L3: 熟練 | 他者を指導できる | 複雑な問題を解決し、ベストプラクティスを策定できる |
| L4: エキスパート | 組織をリードできる | 戦略策定、アーキテクチャ設計、組織改善をリードできる |
チームスキルマトリクス
| スキル | SREリード | SREエンジニア | 運用→SRE転換 |
|---|
| プログラミング | L4 | L3 | L1→L2 |
| 可観測性 | L3 | L3 | L2→L3 |
| インフラ | L3 | L2 | L3(既存スキル) |
| SLI/SLO設計 | L4 | L3 | L1→L2 |
| インシデント管理 | L4 | L3 | L2(経験あり) |
| 自動化 | L3 | L3 | L1→L2 |
チームとしてのカバレッジ
目標: 各スキル領域で最低1名がL3以上
現状の課題:
プログラミング: SREリード(L4)のみL3以上 → 運用チームのスキルアップ必要
SLI/SLO設計: SREリード(L4)のみ → SREエンジニアの育成が急務
自動化: L3が2名 → 十分だが拡大が望ましい
6ヶ月後の目標:
全スキル領域でL3以上が2名以上
キャリアパスの設計
SREキャリアラダー
| レベル | 役割 | 責務 | 年数目安 |
|---|
| Junior SRE | メンバー | ランブック対応、モニタリング設定 | 0-2年 |
| SRE | メンバー | SLO設計、自動化開発、IC担当 | 2-4年 |
| Senior SRE | テックリード | アーキテクチャ設計、ポリシー策定 | 4-7年 |
| Staff SRE | 組織リード | 組織戦略、技術選定、メンタリング | 7年以上 |
| SRE Manager | マネージャー | チーム管理、採用、経営層との橋渡し | 5年以上 |
既存運用チームからの転換パス
現在: インフラエンジニア
↓ Phase 1(0-3ヶ月): SRE基礎研修
↓ - SLI/SLO/エラーバジェットの学習
↓ - プログラミングスキルの強化
↓ - 可観測性ツールの習得
↓
↓ Phase 2(3-6ヶ月): OJT
↓ - オンコールシャドーイング
↓ - ランブック作成
↓ - 自動化スクリプト開発
↓
↓ Phase 3(6-12ヶ月): 実践
↓ - 独立したオンコール対応
↓ - SLO設計への参画
↓ - ポストモーテムのファシリテーション
↓
目標: SREエンジニア(L2レベル)
まとめ
| ポイント | 内容 |
|---|
| SREのスキル | コーディング力が従来運用エンジニアとの最大の違い |
| チーム設計 | 全員が全スキルを持つ必要はない。チームとしてカバーする |
| キャリアパス | 既存運用チームからの転換パスを明確に定義する |
チェックリスト
次のステップへ
次は「SRE採用戦略」です。SREエンジニアの採用における課題と戦略を学びましょう。
推定読了時間: 30分