LESSON

データの種類と特性

田中VPoE「分析の目的が決まったら、次はデータそのものを理解する必要がある。NetShop社にはさまざまな種類のデータがあるけど、それぞれ性質が違うんだ。」

あなた「購買データは数値だけじゃないんですか?」

田中VPoE「いい気づきだね。テキストのレビュー、画像の商品写真、時系列のアクセスログなど、さまざまなデータがある。種類によって使える分析手法も変わるから、しっかり整理しておこう。」

データの分類体系

構造化データ vs 非構造化データ

種類特徴格納先
構造化データ行と列の表形式売上テーブル、顧客マスタRDB、CSV
半構造化データスキーマが柔軟JSON、XML、ログファイルNoSQL、S3
非構造化データ定型のスキーマなしテキスト、画像、動画オブジェクトストレージ

このコースでは主に構造化データを扱いますが、半構造化データ(JSONログなど)も登場します。

量的データ vs 質的データ

データの尺度によって、使える統計手法が異なります。

質的データ(カテゴリカルデータ)

尺度特徴使える演算
名義尺度区別のみ性別、商品カテゴリ、地域=, !=
順序尺度順序あり評価(星1-5)、会員ランク=, !=, <, >

量的データ(数値データ)

尺度特徴使える演算
間隔尺度等間隔、原点なし温度(℃)、日付+, -
比例尺度等間隔、原点あり金額、重量、個数+, -, *, /

なぜ区別が重要か?

例えば、商品カテゴリIDが1, 2, 3だとしても、「平均カテゴリID」には意味がありません。データの尺度を理解していないと、不適切な分析をしてしまいます。

離散データ vs 連続データ

種類特徴
離散データ飛び飛びの値注文数、商品数、クリック数
連続データ任意の値を取る金額、時間、重量

時系列データ

EC事業では時系列データが非常に重要です。

時系列データの特徴

  • トレンド:長期的な増加・減少傾向
  • 季節性:周期的なパターン(曜日、月、年)
  • ノイズ:ランダムな変動
売上 = トレンド + 季節性 + ノイズ

NetShop社の時系列データ例

データ粒度季節性パターン
日次売上曜日パターン(週末増加)
月次売上年間パターン(12月ピーク)
アクセスログ時間帯パターン(昼・夜ピーク)
注文データトランザクションイベント連動(セール期間)

NetShop社のデータソース

今回の分析で使用するデータを整理しましょう:

主要データセット

データセット形式レコード数主要カラム
購買履歴CSV約50万件order_id, customer_id, product_id, amount, date
顧客マスタCSV約10万件customer_id, age, gender, region, registration_date
商品マスタCSV約5千件product_id, category, price, brand
アクセスログJSON約200万件session_id, customer_id, page, timestamp, device

データの品質問題(よくあるケース)

実際のデータは「きれい」ではありません。以下のような問題が潜んでいます:

問題影響
欠損値顧客の年齢が未入力分析対象の減少、バイアス
異常値注文金額が-100円集計結果の歪み
重複同じ注文が2回記録過大カウント
不整合顧客IDの形式が異なる結合の失敗
型の不一致日付が文字列で格納時系列分析の不可

データ品質の評価方法

データを受け取ったら、まず以下をチェックします:

  1. レコード数:想定通りの件数があるか
  2. カラム数と型:スキーマが正しいか
  3. 欠損率:各カラムの欠損割合
  4. 値の分布:基本統計量と外れ値
  5. 一意性:キーの重複がないか
  6. 整合性:テーブル間の結合が正しくできるか

まとめ

項目ポイント
構造構造化・半構造化・非構造化の3種類
尺度名義・順序・間隔・比例の4尺度で使える手法が決まる
時系列トレンド・季節性・ノイズの3成分で理解する
データ品質欠損・異常・重複・不整合を必ずチェックする

チェックリスト

  • 構造化/非構造化データの違いを説明できる
  • 4つの尺度水準を理解し、適切な分析手法を選択できる
  • 時系列データの3成分(トレンド・季節性・ノイズ)を説明できる
  • データ品質の評価ポイントを挙げられる

次のステップへ

データの種類と特性を理解しました。次は演習で、実際にNetShop社のデータに対する分析計画を立ててみましょう。


推定読了時間:30分