演習:MLOps導入ロードマップを作成しよう
田中VPoE「ここまでMLOpsの全体像、成熟度モデル、構成要素、ツールランドスケープを学んだ。ここで手を動かして、うちのDSチームに合ったMLOps導入ロードマップを作成してみよう。」
あなた「現状分析から始めて、段階的な移行計画を立てるんですね。」
田中VPoE「そうだ。机上の空論ではなく、チームの状況を評価して現実的な計画を作ることが重要だ。」
ミッション概要
DSチームの現状(Level 0)を分析し、Level 2までの段階的なMLOps導入ロードマップを作成します。
前提条件
- Step 1の各レッスン(MLOps入門、成熟度モデル、構成要素、ツールランドスケープ)を修了していること
- テキストエディタまたはノートが利用可能であること
Mission 1: 現状分析と成熟度評価(20分)
以下のDSチームの状況を読み、MLOps成熟度評価シートを完成させてください。
チームの現状
チーム構成: データサイエンティスト5名、MLエンジニア1名
インフラ: AWS(EC2, S3)
モデル数: 3本番モデル(需要予測、解約予測、レコメンド)
開発環境: JupyterHub(個人Notebook)
バージョン管理: Git(コードのみ、データは管理外)
デプロイ: 手動(pickle → S3 → EC2へ手動コピー)
テスト: なし
モニタリング: CloudWatchの基本メトリクスのみ(レイテンシ、エラー率)
タスク
以下の評価シートの各項目について、現在の状態と目標状態を記入してください。
| 評価項目 | 現在の状態 | Level 1目標 | Level 2目標 |
|---|---|---|---|
| 実験管理 | ? | ? | ? |
| コード管理 | ? | ? | ? |
| データ管理 | ? | ? | ? |
| モデル管理 | ? | ? | ? |
| テスト | ? | ? | ? |
| デプロイ | ? | ? | ? |
| モニタリング | ? | ? | ? |
解答例
| 評価項目 | 現在の状態 | Level 1目標 | Level 2目標 |
|---|---|---|---|
| 実験管理 | 個人Notebookで管理、共有なし | MLflowで一元管理 | 自動ハイパーパラメータチューニング |
| コード管理 | Gitでコードのみ管理 | コード+設定をGit管理、コードレビュー必須 | CI/CDパイプラインで自動テスト |
| データ管理 | S3に手動配置、バージョンなし | DVCでデータバージョニング | Great Expectationsでデータバリデーション自動化 |
| モデル管理 | pickle手動保存 | MLflow Model Registryで管理 | ステージング→本番の承認フロー自動化 |
| テスト | なし | モデル精度テスト(閾値チェック) | ユニット+統合+モデル性能テストの自動実行 |
| デプロイ | 手動(1週間) | 半自動(承認後にスクリプト実行、数時間) | 完全自動(CI/CD、数十分) |
| モニタリング | CloudWatch基本メトリクスのみ | モデル性能メトリクスの記録 | データドリフト検出+アラート自動化 |
Mission 2: ツール構成の設計(20分)
Mission 1の分析を基に、Phase 1(Level 0→1)とPhase 2(Level 1→2)で導入するツールと構成を設計してください。
タスク
以下のテンプレートを完成させてください。
Phase 1(Level 0 → Level 1)
期間: ?ヶ月
導入ツール:
実験管理: ?
データ管理: ?
モデル管理: ?
テスト: ?
デプロイ: ?
導入順序:
Week 1-2: ?
Week 3-4: ?
Week 5-6: ?
Week 7-8: ?
必要リソース:
人員: ?
インフラ: ?
コスト: ?
Phase 2(Level 1 → Level 2)
期間: ?ヶ月
導入ツール:
CI/CD: ?
特徴量ストア: ?
データ品質: ?
モニタリング: ?
サービング: ?
導入順序:
Month 1: ?
Month 2: ?
Month 3: ?
解答例
Phase 1(Level 0 → Level 1)解答
期間: 2ヶ月
導入ツール:
実験管理: MLflow Tracking Server(EC2上)
データ管理: DVC + S3バックエンド
モデル管理: MLflow Model Registry
テスト: pytest + モデル精度テスト
デプロイ: デプロイスクリプト(Makefile)
導入順序:
Week 1-2: MLflow環境構築 + チーム向けトレーニング
Week 3-4: 既存3モデルの実験をMLflowに移行
Week 5-6: DVC導入 + データバージョニング開始
Week 7-8: Model Registry設定 + デプロイスクリプト作成
必要リソース:
人員: MLエンジニア1名(フルタイム)+ DS全員(20%工数)
インフラ: MLflow用EC2(t3.medium)+ PostgreSQL(RDS)
コスト: 約$100-200/月(インフラ費)
Phase 2(Level 1 → Level 2)解答
期間: 3ヶ月
導入ツール:
CI/CD: GitHub Actions
特徴量ストア: Feast + Redis + S3
データ品質: Great Expectations
モニタリング: Evidently AI + CloudWatch
サービング: FastAPI + Docker + ECR + ECS
導入順序:
Month 1: GitHub Actions CI/CDパイプライン構築 + テスト自動化
Month 2: Feast特徴量ストア構築 + 既存特徴量の移行
Month 3: Evidently AIモニタリング + Great Expectationsデータバリデーション
Mission 3: リスク分析と対策(20分)
MLOps導入で発生しうるリスクを特定し、対策を立ててください。
タスク
以下の観点から、少なくとも5つのリスクとその対策を挙げてください。
| リスクカテゴリ | リスク | 影響度 | 発生確率 | 対策 |
|---|---|---|---|---|
| 技術的リスク | ? | 高/中/低 | 高/中/低 | ? |
| 組織的リスク | ? | 高/中/低 | 高/中/低 | ? |
| 運用リスク | ? | 高/中/低 | 高/中/低 | ? |
解答例
| リスクカテゴリ | リスク | 影響度 | 発生確率 | 対策 |
|---|---|---|---|---|
| 技術的リスク | ツール間の統合が想定以上に複雑 | 高 | 中 | 最小構成から始め段階的に拡張、POCで事前検証 |
| 技術的リスク | 既存モデルの移行でパフォーマンス低下 | 高 | 低 | 移行前後のベンチマーク比較を必須化 |
| 組織的リスク | DSチームの抵抗(Notebookで十分という意見) | 中 | 高 | 段階的導入、成功事例の共有、手動作業工数の可視化 |
| 組織的リスク | MLエンジニアのリソース不足 | 高 | 中 | 外部からの一時的支援、DSメンバーのスキルアップ |
| 運用リスク | MLflowサーバーの障害で開発停止 | 高 | 低 | バックアップ設定、冗長構成、手動フォールバック手順 |
| 運用リスク | 学習コストによる生産性の一時的低下 | 中 | 高 | トレーニング期間を計画に組み込む、チートシート作成 |
| コストリスク | インフラコストの想定超過 | 中 | 中 | コストアラート設定、月次レビュー |
達成度チェック
- DSチームの現状を7項目で評価し、Level 1/2の目標を設定できた
- Phase 1/2それぞれのツール構成と導入スケジュールを作成できた
- 5つ以上のリスクを特定し、具体的な対策を立案できた
- 各フェーズの必要リソース(人員・インフラ・コスト)を見積もれた
推定所要時間:60分