最終クイズ：ビジネスデータを分析しよう

Month 1の全範囲から出題します。合格ライン：80%（8問以上正解）。

Q1. CRISP-DMの6フェーズを正しい順序で並べたものはどれか？

A. データ理解 → ビジネス理解 → データ準備 → モデリング → 評価 → 展開 B. ビジネス理解 → データ理解 → データ準備 → モデリング → 評価 → 展開 C. ビジネス理解 → データ準備 → データ理解 → モデリング → 展開 → 評価 D. データ準備 → データ理解 → ビジネス理解 → モデリング → 評価 → 展開

答えを見る

正解：B. ビジネス理解 → データ理解 → データ準備 → モデリング → 評価 → 展開

CRISP-DMは1.ビジネス理解、2.データ理解、3.データ準備、4.モデリング、5.評価、6.展開の順に進みます。最も重要なのはビジネス理解（目的の明確化）であり、最も時間がかかるのはデータ準備（全体の60-80%）です。

Q2. EC事業でLTV（顧客生涯価値）がCAC（顧客獲得コスト）の何倍以上あることが健全とされるか？

A. 1倍以上 B. 2倍以上 C. 3倍以上 D. 5倍以上

答えを見る

正解：C. 3倍以上

一般的に、LTVはCACの3倍以上が健全な水準とされています（LTV/CAC >= 3）。1倍では獲得コストを回収するのがやっとで、オペレーションコストを考慮すると赤字になります。3倍以上あれば持続可能な成長が見込めます。

Q3. 以下のPandasコードの結果について正しいのはどれか？

result = df.groupby('category').agg(
    total=('amount', 'sum'),
    avg=('amount', 'mean'),
    count=('order_id', 'nunique')
).reset_index()

A. カテゴリ名がカラムとして残り、集計結果が行になる B. カテゴリ別の合計・平均・ユニーク注文数を持つDataFrameが得られる C. 全カテゴリの合計・平均・カウントが1行で得られる D. エラーになる（aggの引数が不正）

答えを見る

正解：B. カテゴリ別の合計・平均・ユニーク注文数を持つDataFrameが得られる

名前付き集計（Named Aggregation）の構文です。groupbyでカテゴリ別にグループ化し、amountの合計（total）と平均（avg）、order_idのユニーク数（count）を計算します。reset_index()によりcategoryがカラムに戻ります。

Q4. 左外部結合（LEFT JOIN）でorders（1万行）にcustomers（5千行）を結合した結果、行数が1万5千行になった。最も考えられる原因はどれか？

A. ordersに存在しないcustomer_idがcustomersにある B. customersのcustomer_idに重複がある C. LEFT JOINは常に行数が増える仕様 D. ordersのcustomer_idに欠損値がある

答えを見る

正解：B. customersのcustomer_idに重複がある

LEFT JOINで左テーブルの行数が増えるのは、右テーブル（customers）の結合キーに重複がある場合です。1つのcustomer_idに対して複数のレコードがあると、ordersの各行がそれぞれに結合され、行数が膨張します。結合後は必ずassertで行数を確認しましょう。

Q5. 正規分布に従わないデータの2群比較に最も適切な検定はどれか？

A. 対応のあるt検定 B. 独立2標本t検定 C. Mann-Whitney U検定（Wilcoxon順位和検定） D. カイ二乗検定

答えを見る

正解：C. Mann-Whitney U検定（Wilcoxon順位和検定）

t検定は正規性を仮定します。データが正規分布に従わない場合、ノンパラメトリック検定であるMann-Whitney U検定が適切です。この検定は中央値付近の順位に基づくため、分布の形に関する仮定が緩やかです。カイ二乗検定はカテゴリカルデータ用です。

Q6. 相関係数が0.85の2変数について正しい解釈はどれか？

A. 一方が他方の原因である B. 強い正の線形関係がある C. 85%の確率で関連がある D. 因果関係が証明された

答えを見る

正解：B. 強い正の線形関係がある

相関係数0.85は強い正の線形関係を示しますが、因果関係を意味しません。交絡変数の影響や逆因果の可能性があります。因果関係の証明にはランダム化実験や、交絡変数を統制した分析が必要です。「相関は因果ではない」はデータ分析の基本原則です。

Q7. Tufteの可視化原則に反するグラフの特徴はどれか？

A. データポイントが明確に表示されている B. 3D効果が施された棒グラフ C. Y軸が0から始まる棒グラフ D. データラベルが付いた折れ線グラフ

答えを見る

正解：B. 3D効果が施された棒グラフ

3D効果はチャートジャンク（データの理解を妨げる装飾）の代表例です。Tufteは「データインク比を最大化する」ことを提唱しており、3D効果、不要なグラデーション、過剰な装飾を排除して、データそのものに焦点を当てるべきとしています。

Q8. データストーリーテリングのSCR構造で、以下の文が該当するパートはどれか？

「リテンション施策に月間200万円の予算を配分すべきである」

A. Situation（現状） B. Complication（問題） C. Resolution（解決策） D. Appendix（付録）

答えを見る

正解：C. Resolution（解決策）

SCR構造は Situation（現状の説明）→ Complication（問題・課題の提示）→ Resolution（解決策・提言）の3部構成です。「〜すべきである」という提言はResolution（解決策）に該当します。

Q9. Jupyter Notebookで分析の再現性を確保するために必要でないのはどれか？

A. np.random.seed(42) で乱数シードを固定する B. ライブラリのバージョンを記録する C. セルに装飾的なCSS を適用する D. Kernel → Restart & Run All で動作確認する

答えを見る

正解：C. セルに装飾的なCSSを適用する

装飾的なCSSは見た目の問題であり、分析の再現性とは無関係です。再現性の確保には、乱数シードの固定（A）、ライブラリバージョンの記録（B）、全セルの順序実行確認（D）が重要です。これに加えてrequirements.txtやデータソースの明記も推奨されます。

Q10. 以下の分析レポートのエグゼクティブサマリーとして最も適切なのはどれか？

A. 「Pandasで購買データを分析し、groupbyとmergeを使って集計しました。t検定のp値は0.003でした。」 B. 「既存顧客のリピート率30%低下が売上鈍化の主因。リテンション施策（月200万円）で年間7,200万円の増収を見込む。」 C. 「データの前処理に3日、分析に4日、レポート作成に3日かかりました。」 D. 「売上データを可視化したところ、折れ線グラフが右肩下がりになっていました。」

答えを見る

正解：B. 「既存顧客のリピート率30%低下が売上鈍化の主因。リテンション施策（月200万円）で年間7,200万円の増収を見込む。」

エグゼクティブサマリーは「主要な発見」と「具体的な提言」を含む必要があります。Bは原因の特定（リピート率30%低下）、施策（リテンション施策）、期待効果（年間7,200万円）が簡潔にまとまっています。AやCは手法やプロセスの話で、Dは解釈が不足しています。

結果

10問中何問正解できましたか？

正解数	評価	次のアクション
10問	完璧！全スキルを習得しています	Month 2へ進みましょう
8-9問	合格！十分な理解度です	Month 2へ進みましょう
6-7問	惜しい！弱点を復習しましょう	間違えたStepを復習してから再挑戦
4-5問	もう少し！基礎をしっかり固めましょう	Step 1-3を重点的に復習
0-3問	全体的な復習が必要です	Month 1を最初からやり直しましょう

合格基準

8問以上正解（80%以上）で合格 です。

合格した方は、Month 2「機械学習の基礎を学ぼう」に進みましょう。予測モデルの構築に挑戦します。

推定所要時間：30分