EXERCISE 60分

演習:MLOps導入ロードマップを作成しよう

田中VPoE「ここまでMLOpsの全体像、成熟度モデル、構成要素、ツールランドスケープを学んだ。ここで手を動かして、うちのDSチームに合ったMLOps導入ロードマップを作成してみよう。」

あなた「現状分析から始めて、段階的な移行計画を立てるんですね。」

田中VPoE「そうだ。机上の空論ではなく、チームの状況を評価して現実的な計画を作ることが重要だ。」

ミッション概要

DSチームの現状(Level 0)を分析し、Level 2までの段階的なMLOps導入ロードマップを作成します。

前提条件

  • Step 1の各レッスン(MLOps入門、成熟度モデル、構成要素、ツールランドスケープ)を修了していること
  • テキストエディタまたはノートが利用可能であること

Mission 1: 現状分析と成熟度評価(20分)

以下のDSチームの状況を読み、MLOps成熟度評価シートを完成させてください。

チームの現状

チーム構成: データサイエンティスト5名、MLエンジニア1名
インフラ: AWS(EC2, S3)
モデル数: 3本番モデル(需要予測、解約予測、レコメンド)
開発環境: JupyterHub(個人Notebook)
バージョン管理: Git(コードのみ、データは管理外)
デプロイ: 手動(pickle → S3 → EC2へ手動コピー)
テスト: なし
モニタリング: CloudWatchの基本メトリクスのみ(レイテンシ、エラー率)

タスク

以下の評価シートの各項目について、現在の状態と目標状態を記入してください。

評価項目現在の状態Level 1目標Level 2目標
実験管理???
コード管理???
データ管理???
モデル管理???
テスト???
デプロイ???
モニタリング???
解答例
評価項目現在の状態Level 1目標Level 2目標
実験管理個人Notebookで管理、共有なしMLflowで一元管理自動ハイパーパラメータチューニング
コード管理Gitでコードのみ管理コード+設定をGit管理、コードレビュー必須CI/CDパイプラインで自動テスト
データ管理S3に手動配置、バージョンなしDVCでデータバージョニングGreat Expectationsでデータバリデーション自動化
モデル管理pickle手動保存MLflow Model Registryで管理ステージング→本番の承認フロー自動化
テストなしモデル精度テスト(閾値チェック)ユニット+統合+モデル性能テストの自動実行
デプロイ手動(1週間)半自動(承認後にスクリプト実行、数時間)完全自動(CI/CD、数十分)
モニタリングCloudWatch基本メトリクスのみモデル性能メトリクスの記録データドリフト検出+アラート自動化

Mission 2: ツール構成の設計(20分)

Mission 1の分析を基に、Phase 1(Level 0→1)とPhase 2(Level 1→2)で導入するツールと構成を設計してください。

タスク

以下のテンプレートを完成させてください。

Phase 1(Level 0 → Level 1)

期間: ?ヶ月
導入ツール:
  実験管理:     ?
  データ管理:    ?
  モデル管理:    ?
  テスト:       ?
  デプロイ:     ?

導入順序:
  Week 1-2: ?
  Week 3-4: ?
  Week 5-6: ?
  Week 7-8: ?

必要リソース:
  人員: ?
  インフラ: ?
  コスト: ?

Phase 2(Level 1 → Level 2)

期間: ?ヶ月
導入ツール:
  CI/CD:        ?
  特徴量ストア:  ?
  データ品質:    ?
  モニタリング:  ?
  サービング:    ?

導入順序:
  Month 1: ?
  Month 2: ?
  Month 3: ?
解答例

Phase 1(Level 0 → Level 1)解答

期間: 2ヶ月
導入ツール:
  実験管理:     MLflow Tracking Server(EC2上)
  データ管理:    DVC + S3バックエンド
  モデル管理:    MLflow Model Registry
  テスト:       pytest + モデル精度テスト
  デプロイ:     デプロイスクリプト(Makefile)

導入順序:
  Week 1-2: MLflow環境構築 + チーム向けトレーニング
  Week 3-4: 既存3モデルの実験をMLflowに移行
  Week 5-6: DVC導入 + データバージョニング開始
  Week 7-8: Model Registry設定 + デプロイスクリプト作成

必要リソース:
  人員: MLエンジニア1名(フルタイム)+ DS全員(20%工数)
  インフラ: MLflow用EC2(t3.medium)+ PostgreSQL(RDS)
  コスト: 約$100-200/月(インフラ費)

Phase 2(Level 1 → Level 2)解答

期間: 3ヶ月
導入ツール:
  CI/CD:        GitHub Actions
  特徴量ストア:  Feast + Redis + S3
  データ品質:    Great Expectations
  モニタリング:  Evidently AI + CloudWatch
  サービング:    FastAPI + Docker + ECR + ECS

導入順序:
  Month 1: GitHub Actions CI/CDパイプライン構築 + テスト自動化
  Month 2: Feast特徴量ストア構築 + 既存特徴量の移行
  Month 3: Evidently AIモニタリング + Great Expectationsデータバリデーション

Mission 3: リスク分析と対策(20分)

MLOps導入で発生しうるリスクを特定し、対策を立ててください。

タスク

以下の観点から、少なくとも5つのリスクとその対策を挙げてください。

リスクカテゴリリスク影響度発生確率対策
技術的リスク?高/中/低高/中/低?
組織的リスク?高/中/低高/中/低?
運用リスク?高/中/低高/中/低?
解答例
リスクカテゴリリスク影響度発生確率対策
技術的リスクツール間の統合が想定以上に複雑最小構成から始め段階的に拡張、POCで事前検証
技術的リスク既存モデルの移行でパフォーマンス低下移行前後のベンチマーク比較を必須化
組織的リスクDSチームの抵抗(Notebookで十分という意見)段階的導入、成功事例の共有、手動作業工数の可視化
組織的リスクMLエンジニアのリソース不足外部からの一時的支援、DSメンバーのスキルアップ
運用リスクMLflowサーバーの障害で開発停止バックアップ設定、冗長構成、手動フォールバック手順
運用リスク学習コストによる生産性の一時的低下トレーニング期間を計画に組み込む、チートシート作成
コストリスクインフラコストの想定超過コストアラート設定、月次レビュー

達成度チェック

  • DSチームの現状を7項目で評価し、Level 1/2の目標を設定できた
  • Phase 1/2それぞれのツール構成と導入スケジュールを作成できた
  • 5つ以上のリスクを特定し、具体的な対策を立案できた
  • 各フェーズの必要リソース(人員・インフラ・コスト)を見積もれた

推定所要時間:60分