演習：MLOps導入ロードマップを作成しよう

田中VPoE「ここまでMLOpsの全体像、成熟度モデル、構成要素、ツールランドスケープを学んだ。ここで手を動かして、うちのDSチームに合ったMLOps導入ロードマップを作成してみよう。」

あなた「現状分析から始めて、段階的な移行計画を立てるんですね。」

田中VPoE「そうだ。机上の空論ではなく、チームの状況を評価して現実的な計画を作ることが重要だ。」

ミッション概要

DSチームの現状（Level 0）を分析し、Level 2までの段階的なMLOps導入ロードマップを作成します。

前提条件

Step 1の各レッスン（MLOps入門、成熟度モデル、構成要素、ツールランドスケープ）を修了していること
テキストエディタまたはノートが利用可能であること

Mission 1: 現状分析と成熟度評価（20分）

以下のDSチームの状況を読み、MLOps成熟度評価シートを完成させてください。

チームの現状

チーム構成: データサイエンティスト5名、MLエンジニア1名
インフラ: AWS（EC2, S3）
モデル数: 3本番モデル（需要予測、解約予測、レコメンド）
開発環境: JupyterHub（個人Notebook）
バージョン管理: Git（コードのみ、データは管理外）
デプロイ: 手動（pickle → S3 → EC2へ手動コピー）
テスト: なし
モニタリング: CloudWatchの基本メトリクスのみ（レイテンシ、エラー率）

タスク

以下の評価シートの各項目について、現在の状態と目標状態を記入してください。

評価項目	現在の状態	Level 1目標	Level 2目標
実験管理	?	?	?
コード管理	?	?	?
データ管理	?	?	?
モデル管理	?	?	?
テスト	?	?	?
デプロイ	?	?	?
モニタリング	?	?	?

解答例

評価項目	現在の状態	Level 1目標	Level 2目標
実験管理	個人Notebookで管理、共有なし	MLflowで一元管理	自動ハイパーパラメータチューニング
コード管理	Gitでコードのみ管理	コード+設定をGit管理、コードレビュー必須	CI/CDパイプラインで自動テスト
データ管理	S3に手動配置、バージョンなし	DVCでデータバージョニング	Great Expectationsでデータバリデーション自動化
モデル管理	pickle手動保存	MLflow Model Registryで管理	ステージング→本番の承認フロー自動化
テスト	なし	モデル精度テスト（閾値チェック）	ユニット+統合+モデル性能テストの自動実行
デプロイ	手動（1週間）	半自動（承認後にスクリプト実行、数時間）	完全自動（CI/CD、数十分）
モニタリング	CloudWatch基本メトリクスのみ	モデル性能メトリクスの記録	データドリフト検出+アラート自動化

Mission 2: ツール構成の設計（20分）

Mission 1の分析を基に、Phase 1（Level 0→1）とPhase 2（Level 1→2）で導入するツールと構成を設計してください。

タスク

以下のテンプレートを完成させてください。

Phase 1（Level 0 → Level 1）

期間: ?ヶ月
導入ツール:
  実験管理:     ?
  データ管理:    ?
  モデル管理:    ?
  テスト:       ?
  デプロイ:     ?

導入順序:
  Week 1-2: ?
  Week 3-4: ?
  Week 5-6: ?
  Week 7-8: ?

必要リソース:
  人員: ?
  インフラ: ?
  コスト: ?

Phase 2（Level 1 → Level 2）

期間: ?ヶ月
導入ツール:
  CI/CD:        ?
  特徴量ストア:  ?
  データ品質:    ?
  モニタリング:  ?
  サービング:    ?

導入順序:
  Month 1: ?
  Month 2: ?
  Month 3: ?

解答例

Phase 1（Level 0 → Level 1）解答

期間: 2ヶ月
導入ツール:
  実験管理:     MLflow Tracking Server（EC2上）
  データ管理:    DVC + S3バックエンド
  モデル管理:    MLflow Model Registry
  テスト:       pytest + モデル精度テスト
  デプロイ:     デプロイスクリプト（Makefile）

導入順序:
  Week 1-2: MLflow環境構築 + チーム向けトレーニング
  Week 3-4: 既存3モデルの実験をMLflowに移行
  Week 5-6: DVC導入 + データバージョニング開始
  Week 7-8: Model Registry設定 + デプロイスクリプト作成

必要リソース:
  人員: MLエンジニア1名（フルタイム）+ DS全員（20%工数）
  インフラ: MLflow用EC2（t3.medium）+ PostgreSQL（RDS）
  コスト: 約$100-200/月（インフラ費）

Phase 2（Level 1 → Level 2）解答

期間: 3ヶ月
導入ツール:
  CI/CD:        GitHub Actions
  特徴量ストア:  Feast + Redis + S3
  データ品質:    Great Expectations
  モニタリング:  Evidently AI + CloudWatch
  サービング:    FastAPI + Docker + ECR + ECS

導入順序:
  Month 1: GitHub Actions CI/CDパイプライン構築 + テスト自動化
  Month 2: Feast特徴量ストア構築 + 既存特徴量の移行
  Month 3: Evidently AIモニタリング + Great Expectationsデータバリデーション

Mission 3: リスク分析と対策（20分）

MLOps導入で発生しうるリスクを特定し、対策を立ててください。

タスク

以下の観点から、少なくとも5つのリスクとその対策を挙げてください。

リスクカテゴリ	リスク	影響度	発生確率	対策
技術的リスク	?	高/中/低	高/中/低	?
組織的リスク	?	高/中/低	高/中/低	?
運用リスク	?	高/中/低	高/中/低	?

解答例

リスクカテゴリ	リスク	影響度	発生確率	対策
技術的リスク	ツール間の統合が想定以上に複雑	高	中	最小構成から始め段階的に拡張、POCで事前検証
技術的リスク	既存モデルの移行でパフォーマンス低下	高	低	移行前後のベンチマーク比較を必須化
組織的リスク	DSチームの抵抗（Notebookで十分という意見）	中	高	段階的導入、成功事例の共有、手動作業工数の可視化
組織的リスク	MLエンジニアのリソース不足	高	中	外部からの一時的支援、DSメンバーのスキルアップ
運用リスク	MLflowサーバーの障害で開発停止	高	低	バックアップ設定、冗長構成、手動フォールバック手順
運用リスク	学習コストによる生産性の一時的低下	中	高	トレーニング期間を計画に組み込む、チートシート作成
コストリスク	インフラコストの想定超過	中	中	コストアラート設定、月次レビュー

達成度チェック

DSチームの現状を7項目で評価し、Level 1/2の目標を設定できた
Phase 1/2それぞれのツール構成と導入スケジュールを作成できた
5つ以上のリスクを特定し、具体的な対策を立案できた
各フェーズの必要リソース（人員・インフラ・コスト）を見積もれた

推定所要時間：60分