データの種類と特性
田中VPoE「分析の目的が決まったら、次はデータそのものを理解する必要がある。NetShop社にはさまざまな種類のデータがあるけど、それぞれ性質が違うんだ。」
あなた「購買データは数値だけじゃないんですか?」
田中VPoE「いい気づきだね。テキストのレビュー、画像の商品写真、時系列のアクセスログなど、さまざまなデータがある。種類によって使える分析手法も変わるから、しっかり整理しておこう。」
データの分類体系
構造化データ vs 非構造化データ
| 種類 | 特徴 | 例 | 格納先 |
|---|---|---|---|
| 構造化データ | 行と列の表形式 | 売上テーブル、顧客マスタ | RDB、CSV |
| 半構造化データ | スキーマが柔軟 | JSON、XML、ログファイル | NoSQL、S3 |
| 非構造化データ | 定型のスキーマなし | テキスト、画像、動画 | オブジェクトストレージ |
このコースでは主に構造化データを扱いますが、半構造化データ(JSONログなど)も登場します。
量的データ vs 質的データ
データの尺度によって、使える統計手法が異なります。
質的データ(カテゴリカルデータ)
| 尺度 | 特徴 | 例 | 使える演算 |
|---|---|---|---|
| 名義尺度 | 区別のみ | 性別、商品カテゴリ、地域 | =, != |
| 順序尺度 | 順序あり | 評価(星1-5)、会員ランク | =, !=, <, > |
量的データ(数値データ)
| 尺度 | 特徴 | 例 | 使える演算 |
|---|---|---|---|
| 間隔尺度 | 等間隔、原点なし | 温度(℃)、日付 | +, - |
| 比例尺度 | 等間隔、原点あり | 金額、重量、個数 | +, -, *, / |
なぜ区別が重要か?
例えば、商品カテゴリIDが1, 2, 3だとしても、「平均カテゴリID」には意味がありません。データの尺度を理解していないと、不適切な分析をしてしまいます。
離散データ vs 連続データ
| 種類 | 特徴 | 例 |
|---|---|---|
| 離散データ | 飛び飛びの値 | 注文数、商品数、クリック数 |
| 連続データ | 任意の値を取る | 金額、時間、重量 |
時系列データ
EC事業では時系列データが非常に重要です。
時系列データの特徴
- トレンド:長期的な増加・減少傾向
- 季節性:周期的なパターン(曜日、月、年)
- ノイズ:ランダムな変動
売上 = トレンド + 季節性 + ノイズ
NetShop社の時系列データ例
| データ | 粒度 | 季節性パターン |
|---|---|---|
| 日次売上 | 日 | 曜日パターン(週末増加) |
| 月次売上 | 月 | 年間パターン(12月ピーク) |
| アクセスログ | 秒 | 時間帯パターン(昼・夜ピーク) |
| 注文データ | トランザクション | イベント連動(セール期間) |
NetShop社のデータソース
今回の分析で使用するデータを整理しましょう:
主要データセット
| データセット | 形式 | レコード数 | 主要カラム |
|---|---|---|---|
| 購買履歴 | CSV | 約50万件 | order_id, customer_id, product_id, amount, date |
| 顧客マスタ | CSV | 約10万件 | customer_id, age, gender, region, registration_date |
| 商品マスタ | CSV | 約5千件 | product_id, category, price, brand |
| アクセスログ | JSON | 約200万件 | session_id, customer_id, page, timestamp, device |
データの品質問題(よくあるケース)
実際のデータは「きれい」ではありません。以下のような問題が潜んでいます:
| 問題 | 例 | 影響 |
|---|---|---|
| 欠損値 | 顧客の年齢が未入力 | 分析対象の減少、バイアス |
| 異常値 | 注文金額が-100円 | 集計結果の歪み |
| 重複 | 同じ注文が2回記録 | 過大カウント |
| 不整合 | 顧客IDの形式が異なる | 結合の失敗 |
| 型の不一致 | 日付が文字列で格納 | 時系列分析の不可 |
データ品質の評価方法
データを受け取ったら、まず以下をチェックします:
- レコード数:想定通りの件数があるか
- カラム数と型:スキーマが正しいか
- 欠損率:各カラムの欠損割合
- 値の分布:基本統計量と外れ値
- 一意性:キーの重複がないか
- 整合性:テーブル間の結合が正しくできるか
まとめ
| 項目 | ポイント |
|---|---|
| 構造 | 構造化・半構造化・非構造化の3種類 |
| 尺度 | 名義・順序・間隔・比例の4尺度で使える手法が決まる |
| 時系列 | トレンド・季節性・ノイズの3成分で理解する |
| データ品質 | 欠損・異常・重複・不整合を必ずチェックする |
チェックリスト
- 構造化/非構造化データの違いを説明できる
- 4つの尺度水準を理解し、適切な分析手法を選択できる
- 時系列データの3成分(トレンド・季節性・ノイズ)を説明できる
- データ品質の評価ポイントを挙げられる
次のステップへ
データの種類と特性を理解しました。次は演習で、実際にNetShop社のデータに対する分析計画を立ててみましょう。
推定読了時間:30分