最終クイズ:ビジネスデータを分析しよう
Month 1の全範囲から出題します。合格ライン:80%(8問以上正解)。
Q1. CRISP-DMの6フェーズを正しい順序で並べたものはどれか?
A. データ理解 → ビジネス理解 → データ準備 → モデリング → 評価 → 展開 B. ビジネス理解 → データ理解 → データ準備 → モデリング → 評価 → 展開 C. ビジネス理解 → データ準備 → データ理解 → モデリング → 展開 → 評価 D. データ準備 → データ理解 → ビジネス理解 → モデリング → 評価 → 展開
答えを見る
正解:B. ビジネス理解 → データ理解 → データ準備 → モデリング → 評価 → 展開
CRISP-DMは1.ビジネス理解、2.データ理解、3.データ準備、4.モデリング、5.評価、6.展開の順に進みます。最も重要なのはビジネス理解(目的の明確化)であり、最も時間がかかるのはデータ準備(全体の60-80%)です。
Q2. EC事業でLTV(顧客生涯価値)がCAC(顧客獲得コスト)の何倍以上あることが健全とされるか?
A. 1倍以上 B. 2倍以上 C. 3倍以上 D. 5倍以上
答えを見る
正解:C. 3倍以上
一般的に、LTVはCACの3倍以上が健全な水準とされています(LTV/CAC >= 3)。1倍では獲得コストを回収するのがやっとで、オペレーションコストを考慮すると赤字になります。3倍以上あれば持続可能な成長が見込めます。
Q3. 以下のPandasコードの結果について正しいのはどれか?
result = df.groupby('category').agg(
total=('amount', 'sum'),
avg=('amount', 'mean'),
count=('order_id', 'nunique')
).reset_index()
A. カテゴリ名がカラムとして残り、集計結果が行になる B. カテゴリ別の合計・平均・ユニーク注文数を持つDataFrameが得られる C. 全カテゴリの合計・平均・カウントが1行で得られる D. エラーになる(aggの引数が不正)
答えを見る
正解:B. カテゴリ別の合計・平均・ユニーク注文数を持つDataFrameが得られる
名前付き集計(Named Aggregation)の構文です。groupbyでカテゴリ別にグループ化し、amountの合計(total)と平均(avg)、order_idのユニーク数(count)を計算します。reset_index()によりcategoryがカラムに戻ります。
Q4. 左外部結合(LEFT JOIN)でorders(1万行)にcustomers(5千行)を結合した結果、行数が1万5千行になった。最も考えられる原因はどれか?
A. ordersに存在しないcustomer_idがcustomersにある B. customersのcustomer_idに重複がある C. LEFT JOINは常に行数が増える仕様 D. ordersのcustomer_idに欠損値がある
答えを見る
正解:B. customersのcustomer_idに重複がある
LEFT JOINで左テーブルの行数が増えるのは、右テーブル(customers)の結合キーに重複がある場合です。1つのcustomer_idに対して複数のレコードがあると、ordersの各行がそれぞれに結合され、行数が膨張します。結合後は必ずassertで行数を確認しましょう。
Q5. 正規分布に従わないデータの2群比較に最も適切な検定はどれか?
A. 対応のあるt検定 B. 独立2標本t検定 C. Mann-Whitney U検定(Wilcoxon順位和検定) D. カイ二乗検定
答えを見る
正解:C. Mann-Whitney U検定(Wilcoxon順位和検定)
t検定は正規性を仮定します。データが正規分布に従わない場合、ノンパラメトリック検定であるMann-Whitney U検定が適切です。この検定は中央値付近の順位に基づくため、分布の形に関する仮定が緩やかです。カイ二乗検定はカテゴリカルデータ用です。
Q6. 相関係数が0.85の2変数について正しい解釈はどれか?
A. 一方が他方の原因である B. 強い正の線形関係がある C. 85%の確率で関連がある D. 因果関係が証明された
答えを見る
正解:B. 強い正の線形関係がある
相関係数0.85は強い正の線形関係を示しますが、因果関係を意味しません。交絡変数の影響や逆因果の可能性があります。因果関係の証明にはランダム化実験や、交絡変数を統制した分析が必要です。「相関は因果ではない」はデータ分析の基本原則です。
Q7. Tufteの可視化原則に反するグラフの特徴はどれか?
A. データポイントが明確に表示されている B. 3D効果が施された棒グラフ C. Y軸が0から始まる棒グラフ D. データラベルが付いた折れ線グラフ
答えを見る
正解:B. 3D効果が施された棒グラフ
3D効果はチャートジャンク(データの理解を妨げる装飾)の代表例です。Tufteは「データインク比を最大化する」ことを提唱しており、3D効果、不要なグラデーション、過剰な装飾を排除して、データそのものに焦点を当てるべきとしています。
Q8. データストーリーテリングのSCR構造で、以下の文が該当するパートはどれか?
「リテンション施策に月間200万円の予算を配分すべきである」
A. Situation(現状) B. Complication(問題) C. Resolution(解決策) D. Appendix(付録)
答えを見る
正解:C. Resolution(解決策)
SCR構造は Situation(現状の説明)→ Complication(問題・課題の提示)→ Resolution(解決策・提言)の3部構成です。「〜すべきである」という提言はResolution(解決策)に該当します。
Q9. Jupyter Notebookで分析の再現性を確保するために必要でないのはどれか?
A. np.random.seed(42) で乱数シードを固定する B. ライブラリのバージョンを記録する C. セルに装飾的なCSS を適用する D. Kernel → Restart & Run All で動作確認する
答えを見る
正解:C. セルに装飾的なCSSを適用する
装飾的なCSSは見た目の問題であり、分析の再現性とは無関係です。再現性の確保には、乱数シードの固定(A)、ライブラリバージョンの記録(B)、全セルの順序実行確認(D)が重要です。これに加えてrequirements.txtやデータソースの明記も推奨されます。
Q10. 以下の分析レポートのエグゼクティブサマリーとして最も適切なのはどれか?
A. 「Pandasで購買データを分析し、groupbyとmergeを使って集計しました。t検定のp値は0.003でした。」 B. 「既存顧客のリピート率30%低下が売上鈍化の主因。リテンション施策(月200万円)で年間7,200万円の増収を見込む。」 C. 「データの前処理に3日、分析に4日、レポート作成に3日かかりました。」 D. 「売上データを可視化したところ、折れ線グラフが右肩下がりになっていました。」
答えを見る
正解:B. 「既存顧客のリピート率30%低下が売上鈍化の主因。リテンション施策(月200万円)で年間7,200万円の増収を見込む。」
エグゼクティブサマリーは「主要な発見」と「具体的な提言」を含む必要があります。Bは原因の特定(リピート率30%低下)、施策(リテンション施策)、期待効果(年間7,200万円)が簡潔にまとまっています。AやCは手法やプロセスの話で、Dは解釈が不足しています。
結果
10問中何問正解できましたか?
| 正解数 | 評価 | 次のアクション |
|---|---|---|
| 10問 | 完璧!全スキルを習得しています | Month 2へ進みましょう |
| 8-9問 | 合格!十分な理解度です | Month 2へ進みましょう |
| 6-7問 | 惜しい!弱点を復習しましょう | 間違えたStepを復習してから再挑戦 |
| 4-5問 | もう少し!基礎をしっかり固めましょう | Step 1-3を重点的に復習 |
| 0-3問 | 全体的な復習が必要です | Month 1を最初からやり直しましょう |
合格基準
8問以上正解(80%以上)で合格 です。
合格した方は、Month 2「機械学習の基礎を学ぼう」に進みましょう。予測モデルの構築に挑戦します。
推定所要時間:30分