LESSON

最終クイズ:ビジネスデータを分析しよう

Month 1の全範囲から出題します。合格ライン:80%(8問以上正解)。


Q1. CRISP-DMの6フェーズを正しい順序で並べたものはどれか?

A. データ理解 → ビジネス理解 → データ準備 → モデリング → 評価 → 展開 B. ビジネス理解 → データ理解 → データ準備 → モデリング → 評価 → 展開 C. ビジネス理解 → データ準備 → データ理解 → モデリング → 展開 → 評価 D. データ準備 → データ理解 → ビジネス理解 → モデリング → 評価 → 展開

答えを見る

正解:B. ビジネス理解 → データ理解 → データ準備 → モデリング → 評価 → 展開

CRISP-DMは1.ビジネス理解、2.データ理解、3.データ準備、4.モデリング、5.評価、6.展開の順に進みます。最も重要なのはビジネス理解(目的の明確化)であり、最も時間がかかるのはデータ準備(全体の60-80%)です。


Q2. EC事業でLTV(顧客生涯価値)がCAC(顧客獲得コスト)の何倍以上あることが健全とされるか?

A. 1倍以上 B. 2倍以上 C. 3倍以上 D. 5倍以上

答えを見る

正解:C. 3倍以上

一般的に、LTVはCACの3倍以上が健全な水準とされています(LTV/CAC >= 3)。1倍では獲得コストを回収するのがやっとで、オペレーションコストを考慮すると赤字になります。3倍以上あれば持続可能な成長が見込めます。


Q3. 以下のPandasコードの結果について正しいのはどれか?

result = df.groupby('category').agg(
    total=('amount', 'sum'),
    avg=('amount', 'mean'),
    count=('order_id', 'nunique')
).reset_index()

A. カテゴリ名がカラムとして残り、集計結果が行になる B. カテゴリ別の合計・平均・ユニーク注文数を持つDataFrameが得られる C. 全カテゴリの合計・平均・カウントが1行で得られる D. エラーになる(aggの引数が不正)

答えを見る

正解:B. カテゴリ別の合計・平均・ユニーク注文数を持つDataFrameが得られる

名前付き集計(Named Aggregation)の構文です。groupbyでカテゴリ別にグループ化し、amountの合計(total)と平均(avg)、order_idのユニーク数(count)を計算します。reset_index()によりcategoryがカラムに戻ります。


Q4. 左外部結合(LEFT JOIN)でorders(1万行)にcustomers(5千行)を結合した結果、行数が1万5千行になった。最も考えられる原因はどれか?

A. ordersに存在しないcustomer_idがcustomersにある B. customersのcustomer_idに重複がある C. LEFT JOINは常に行数が増える仕様 D. ordersのcustomer_idに欠損値がある

答えを見る

正解:B. customersのcustomer_idに重複がある

LEFT JOINで左テーブルの行数が増えるのは、右テーブル(customers)の結合キーに重複がある場合です。1つのcustomer_idに対して複数のレコードがあると、ordersの各行がそれぞれに結合され、行数が膨張します。結合後は必ずassertで行数を確認しましょう。


Q5. 正規分布に従わないデータの2群比較に最も適切な検定はどれか?

A. 対応のあるt検定 B. 独立2標本t検定 C. Mann-Whitney U検定(Wilcoxon順位和検定) D. カイ二乗検定

答えを見る

正解:C. Mann-Whitney U検定(Wilcoxon順位和検定)

t検定は正規性を仮定します。データが正規分布に従わない場合、ノンパラメトリック検定であるMann-Whitney U検定が適切です。この検定は中央値付近の順位に基づくため、分布の形に関する仮定が緩やかです。カイ二乗検定はカテゴリカルデータ用です。


Q6. 相関係数が0.85の2変数について正しい解釈はどれか?

A. 一方が他方の原因である B. 強い正の線形関係がある C. 85%の確率で関連がある D. 因果関係が証明された

答えを見る

正解:B. 強い正の線形関係がある

相関係数0.85は強い正の線形関係を示しますが、因果関係を意味しません。交絡変数の影響や逆因果の可能性があります。因果関係の証明にはランダム化実験や、交絡変数を統制した分析が必要です。「相関は因果ではない」はデータ分析の基本原則です。


Q7. Tufteの可視化原則に反するグラフの特徴はどれか?

A. データポイントが明確に表示されている B. 3D効果が施された棒グラフ C. Y軸が0から始まる棒グラフ D. データラベルが付いた折れ線グラフ

答えを見る

正解:B. 3D効果が施された棒グラフ

3D効果はチャートジャンク(データの理解を妨げる装飾)の代表例です。Tufteは「データインク比を最大化する」ことを提唱しており、3D効果、不要なグラデーション、過剰な装飾を排除して、データそのものに焦点を当てるべきとしています。


Q8. データストーリーテリングのSCR構造で、以下の文が該当するパートはどれか?

「リテンション施策に月間200万円の予算を配分すべきである」

A. Situation(現状) B. Complication(問題) C. Resolution(解決策) D. Appendix(付録)

答えを見る

正解:C. Resolution(解決策)

SCR構造は Situation(現状の説明)→ Complication(問題・課題の提示)→ Resolution(解決策・提言)の3部構成です。「〜すべきである」という提言はResolution(解決策)に該当します。


Q9. Jupyter Notebookで分析の再現性を確保するために必要でないのはどれか?

A. np.random.seed(42) で乱数シードを固定する B. ライブラリのバージョンを記録する C. セルに装飾的なCSS を適用する D. Kernel → Restart & Run All で動作確認する

答えを見る

正解:C. セルに装飾的なCSSを適用する

装飾的なCSSは見た目の問題であり、分析の再現性とは無関係です。再現性の確保には、乱数シードの固定(A)、ライブラリバージョンの記録(B)、全セルの順序実行確認(D)が重要です。これに加えてrequirements.txtやデータソースの明記も推奨されます。


Q10. 以下の分析レポートのエグゼクティブサマリーとして最も適切なのはどれか?

A. 「Pandasで購買データを分析し、groupbyとmergeを使って集計しました。t検定のp値は0.003でした。」 B. 「既存顧客のリピート率30%低下が売上鈍化の主因。リテンション施策(月200万円)で年間7,200万円の増収を見込む。」 C. 「データの前処理に3日、分析に4日、レポート作成に3日かかりました。」 D. 「売上データを可視化したところ、折れ線グラフが右肩下がりになっていました。」

答えを見る

正解:B. 「既存顧客のリピート率30%低下が売上鈍化の主因。リテンション施策(月200万円)で年間7,200万円の増収を見込む。」

エグゼクティブサマリーは「主要な発見」と「具体的な提言」を含む必要があります。Bは原因の特定(リピート率30%低下)、施策(リテンション施策)、期待効果(年間7,200万円)が簡潔にまとまっています。AやCは手法やプロセスの話で、Dは解釈が不足しています。


結果

10問中何問正解できましたか?

正解数評価次のアクション
10問完璧!全スキルを習得していますMonth 2へ進みましょう
8-9問合格!十分な理解度ですMonth 2へ進みましょう
6-7問惜しい!弱点を復習しましょう間違えたStepを復習してから再挑戦
4-5問もう少し!基礎をしっかり固めましょうStep 1-3を重点的に復習
0-3問全体的な復習が必要ですMonth 1を最初からやり直しましょう

合格基準

8問以上正解(80%以上)で合格 です。

合格した方は、Month 2「機械学習の基礎を学ぼう」に進みましょう。予測モデルの構築に挑戦します。


推定所要時間:30分