LESSON 30分

ストーリー

田中VPoE
「AI適用判断の4軸のうち、最も重要なのがデータだ。AIの性能はデータの質と量に直結する。今回はデータ可用性を深掘りしよう。」
あなた
「データがなければAIは動かないですからね。」
田中VPoE
「その通り。しかも、データがあるだけでは不十分だ。量は足りるか、品質は十分か、アクセスできるか、この3つを評価する必要がある。」
あなた
「データの棚卸しですね。」
田中VPoE
「そうだ。そしてデータが不足している場合のギャップ分析と対策も考えよう。」

データ可用性の3つの評価軸

評価軸質問評価ポイント
量(Volume)十分なデータ量があるかレコード数、期間、バリエーション
質(Quality)データは信頼できるか正確性、完全性、一貫性、鮮度
アクセス性(Accessibility)データに到達できるか権限、フォーマット、取得方法

軸1: データ量の評価

AI手法別の必要データ量の目安

AI手法必要データ量の目安
ルールベースデータ不要IF-THENルール
生成AI(プロンプト)少量のFAQデータRAG用ナレッジベース100記事程度
生成AI(ファインチューニング)数百〜数千件業界特化の言語モデル調整
分類モデル(ML)各クラス100件以上レビューのポジティブ/ネガティブ分類
回帰モデル(ML)数千件以上需要予測、売上予測
画像認識各カテゴリ数百枚以上商品分類、検品
異常検知正常データ数千件以上不正注文検知

NetShop社のデータ量評価

データ蓄積量必要量判定
問い合わせログ月3万件(年36万件)RAG用: 数百記事十分
注文データ月1.5万件(年18万件)需要予測: 数千件十分
商品データ10万SKU分類: 数百件/カテゴリ十分
アクセスログ月数億PVレコメンド: 数百万件十分
入荷検品画像なし画像認識: 数百枚/カテゴリ不足
不正注文データ月50件(年600件)異常検知: 数千件不足

軸2: データ品質の評価

データ品質の6次元

次元定義評価方法基準値の目安
正確性データが事実を正しく反映サンプリング検証99%以上
完全性必須項目に欠損がないNULL/空白チェック95%以上
一貫性システム間で矛盾がないクロスチェック98%以上
鮮度最新の情報に更新されている更新日時チェック24時間以内
一意性重複データがない重複チェック99%以上
適合性定義されたフォーマットに準拠スキーマ検証99%以上

NetShop社のデータ品質評価

データ正確性完全性一貫性鮮度総合評価
商品マスタ95%85%90%週次更新やや不足
注文データ99%99%98%リアルタイム良好
問い合わせログ90%80%85%リアルタイム要改善
在庫データ95%90%80%日次更新やや不足
顧客データ92%88%85%月次更新やや不足

品質問題の具体例

データ品質問題影響
商品マスタサイズ・重量の入力漏れ15%物流の梱包サイズ選定に支障
問い合わせログカテゴリ分類の不統一20%AI学習用データとして品質不足
在庫データEC在庫とWMS在庫の不一致20%在庫切れによる機会損失
顧客データ住所の表記揺れ配送トラブルの原因

軸3: データアクセス性の評価

アクセス性の評価項目

項目説明評価
権限誰がアクセスできるか個人情報はアクセス制限あり
フォーマット構造化/非構造化かCSV、JSON、自由記述テキスト等
取得方法APIか手動エクスポートかAPI連携の可否
リアルタイム性どの頻度で取得できるかリアルタイム、バッチ、手動
コストデータ取得にかかるコストAPI利用料、ストレージ費用

NetShop社のデータアクセス性

データソースフォーマット取得方法リアルタイム性課題
BigQuery(EC系)構造化API / SQLリアルタイム特になし
Zendesk(CS系)構造化+テキストAPIリアルタイムテキスト解析が必要
WMS(物流系)構造化ファイル連携日次バッチリアルタイム取得不可
GA4(マーケ系)構造化API準リアルタイムAPI制限あり
経理ソフト(管理系)構造化手動エクスポート月次API連携不可

データギャップ分析

ギャップの特定と対策

AI活用候補必要データ現状ギャップ対策
FAQ自動回答FAQ記事、問い合わせログあり(品質要改善)カテゴリ分類の不統一カテゴリマスタ整備、過去データの再分類
需要予測注文履歴、季節要因、イベントデータ注文履歴あり、外部データなし外部要因データの不足天気API、カレンダーデータの連携
出荷検品検品画像なし学習用画像データがないカメラ設置、3ヶ月間の画像収集
在庫最適化リアルタイム在庫データ日次バッチのみリアルタイム性の不足WMSとのAPI連携構築

データ整備のロードマップ

フェーズ期間アクション対象データ
Phase 10-1ヶ月データ棚卸しと品質評価全データソース
Phase 21-3ヶ月データクレンジングと標準化商品マスタ、問い合わせログ
Phase 32-4ヶ月データ連携基盤の整備WMS-BigQuery連携
Phase 43-6ヶ月新規データ収集の開始検品画像、外部データ

まとめ

項目ポイント
3軸評価データの量・質・アクセス性を総合的に評価
量の目安AI手法によって必要量は大きく異なる
品質の6次元正確性・完全性・一貫性・鮮度・一意性・適合性
ギャップ分析不足データの特定と取得方法の計画策定
整備ロードマップ棚卸し→クレンジング→連携基盤→新規収集の段階

チェックリスト

  • データ可用性の3軸評価を説明できる
  • AI手法別の必要データ量の目安を理解した
  • データ品質の6次元を把握した
  • データギャップ分析の手順を理解した

次のステップへ

次は「技術フィット評価」として、生成AI、ML、RPA、ルールベースの使い分けを詳しく学ぼう。


推定読了時間: 30分