EXERCISE 90分

総合演習:MLOps基盤設計書を作成しよう

田中VPoE「ここまでMLOpsの全体像から実験管理、特徴量ストア、パイプライン自動化、モニタリングまで一通り学んできた。最後の総合演習として、NetShop社のMLOps基盤設計書を作成してほしい。」

あなた「Step 1から5までの知識を統合して、実際に運用可能な設計書を作るんですね。」

田中VPoE「そうだ。経営層への提案も想定して、技術面だけでなく、コスト・スケジュール・リスクも含めた設計書にしてくれ。」

ミッション概要

NetShop社のDSチーム向けに、MLOps基盤の全体設計書を作成します。現状分析から技術選定、アーキテクチャ設計、導入計画まで包括的にまとめます。

前提条件

  • Month 4の全レッスン(Step 1〜5)を修了していること
  • テキストエディタまたはドキュメントツールが利用可能であること

Mission 1: 現状分析とアーキテクチャ設計(30分)

背景情報

会社: NetShop社(EC事業)
チーム: DS 5名、MLエンジニア 1名
本番モデル: 需要予測、離脱予測、レコメンド(3本)
インフラ: AWS(EC2, S3, RDS)
現状の成熟度: Level 0(手動プロセス)
目標: 6ヶ月後にLevel 2を達成

タスク

以下の項目を含むアーキテクチャ設計書を作成してください。

  1. 現状(As-Is)のシステム構成図
  2. 目標(To-Be)のシステム構成図
  3. 各コンポーネントの技術選定と選定理由
解答例

As-Is構成:

[Notebook] → 手動 → [pickle] → 手動 → [EC2] → CloudWatch
  個人管理        Slackで共有    手動デプロイ   基本メトリクスのみ

To-Be構成:

[Git + DVC] → [GitHub Actions CI] → [MLflow Tracking]
     ↓                                      ↓
[Great Expectations] → [学習パイプライン] → [MLflow Registry]
                              ↓                    ↓
                    [Feast Feature Store]    [品質ゲート]

                                    [Docker + ECR] → [ECS]

                                              [Evidently AI + CloudWatch]

技術選定:

コンポーネント選定ツール選定理由
実験管理MLflowOSS、学習コスト低、AWS連携良好
データバージョニングDVCGit連携、S3バックエンド
特徴量ストアFeastOSS、小規模から始められる
CI/CDGitHub Actions既存Git環境との統合
データ品質Great ExpectationsPython native、豊富なバリデーション
モニタリングEvidently AIドリフト検出に特化、レポート生成
サービングFastAPI + Docker軽量、チームの既存スキル活用
オーケストレーションPrefectPython native、DAG定義が直感的

Mission 2: 導入計画とコスト見積もり(30分)

タスク

6ヶ月間の導入計画を作成してください。以下を含めること。

  1. Phase分けと各Phaseの目標・タスク・期間
  2. 必要リソース(人員・インフラ)の見積もり
  3. 月次コストの試算
解答例

Phase 1: 基盤構築(Month 1-2)

目標: Level 0 → Level 1
タスク:
  - MLflow環境構築(1週間)
  - DVC導入、既存データの移行(1週間)
  - 既存3モデルのMLflow移行(2週間)
  - 基本テスト整備(1週間)
  - チームトレーニング(並行実施)

必要リソース:
  - MLエンジニア: 1名(フルタイム)
  - DS: 全員(20%工数)

Phase 2: 自動化(Month 3-4)

目標: CI/CDパイプライン稼働
タスク:
  - GitHub Actions ワークフロー構築(2週間)
  - Feast特徴量ストア構築(2週間)
  - 品質ゲート実装(1週間)
  - Docker化とECSデプロイ(2週間)
  - 統合テスト整備(1週間)

Phase 3: モニタリング&最適化(Month 5-6)

目標: Level 2達成
タスク:
  - Evidently AIモニタリング構築(2週間)
  - アラート設計・実装(1週間)
  - 自動再学習パイプライン(2週間)
  - ドキュメント整備・運用手順書(1週間)
  - 全体負荷テスト・最適化(2週間)

月次コスト試算:

項目Phase 1-2Phase 3定常運用
MLflow用EC2(t3.medium)$40$40$40
RDS(PostgreSQL)$30$30$30
ECS(モデルサービング)$0$100$100
S3(データ・モデル保存)$20$30$50
ECR(コンテナレジストリ)$0$10$10
GitHub Actions$0$0$0(Free枠内)
月額合計$90$210$230

Mission 3: リスク分析と成功指標(30分)

タスク

以下を含むリスク分析と成功指標を作成してください。

  1. リスクマトリクス(技術・組織・運用の観点)
  2. KPI(成功指標)と測定方法
  3. 失敗時の撤退基準
解答例

リスクマトリクス:

リスク影響度確率対策
ツール統合の複雑さ最小構成POCで事前検証
チームの学習コストペアプログラミング、段階的導入
既存モデル移行の精度劣化移行前後のベンチマーク必須
MLflowサーバー障害バックアップ、手動フォールバック
コスト超過月次レビュー、コストアラート

KPI:

KPI現状3ヶ月目標6ヶ月目標測定方法
デプロイ所要時間1週間1日数時間パイプライン実行ログ
デプロイ頻度月1回月2回週1回デプロイ回数カウント
実験再現率20%80%100%再現テスト結果
障害復旧時間半日2時間30分インシデントログ
ドリフト検知時間検知不能日次リアルタイムアラート発報タイムスタンプ

撤退基準:

  • Phase 1完了時にデプロイ所要時間が3日以上短縮されない場合
  • Phase 2完了時にチームの50%以上がツールを日常的に使用していない場合
  • 月次コストが見積もりの2倍を超えた場合

達成度チェック

  • As-Is / To-Beのアーキテクチャ構成図を作成できた
  • 各コンポーネントの技術選定と理由を明記できた
  • 6ヶ月間のPhase分け導入計画を作成できた
  • 月次コストの試算を行えた
  • リスクマトリクスとKPIを定義できた
  • 撤退基準を設定できた

推定所要時間:90分