LESSON

機械学習の基礎クイズ

Step 1 で学んだ機械学習の基礎知識を確認しましょう。5問中4問以上の正解で合格です。


Q1. 機械学習と従来プログラミングの違い

従来のプログラミングと機械学習の違いとして、最も適切なものはどれですか?

  • A: 機械学習はルールをプログラムし、従来のプログラミングはデータから学習する
  • B: 機械学習はデータと結果からルールを学習し、従来のプログラミングはルールを人間が記述する
  • C: 機械学習は常に従来プログラミングより優れている
  • D: 従来のプログラミングではデータを使わない

正解: B

解説: 従来のプログラミングでは「ルール + データ → 結果」という流れですが、機械学習では「データ + 結果 → ルール(モデル)」という逆の流れでパターンを学習します。


Q2. 教師あり学習の種類

NetShop の「顧客が離反するかしないかを予測する」タスクは、以下のどれに分類されますか?

  • A: 回帰(Regression)
  • B: クラスタリング(Clustering)
  • C: 二値分類(Binary Classification)
  • D: 強化学習(Reinforcement Learning)

正解: C

解説: 離反する(1)/しない(0)という2つのカテゴリを予測する問題なので、教師あり学習の二値分類に該当します。正解ラベル(過去の離反実績)があるため教師あり学習です。


Q3. データ分割の目的

テストデータを学習データとは別に確保する主な理由はどれですか?

  • A: 学習データが多すぎるとモデルが遅くなるため
  • B: モデルの本当の汎化性能を評価するため
  • C: テストデータの方がデータ品質が高いため
  • D: データ量を減らしてメモリを節約するため

正解: B

解説: テストデータは、モデルが「まだ見たことがないデータ」に対してどれだけ正確に予測できるかという汎化性能を評価するために使います。学習データで評価すると、暗記による見かけ上の高精度を検出できません。


Q4. 過学習(Overfitting)

以下のモデル評価結果のうち、過学習が疑われるのはどれですか?

  • A: 学習データ精度 85%、テストデータ精度 83%
  • B: 学習データ精度 60%、テストデータ精度 58%
  • C: 学習データ精度 99%、テストデータ精度 65%
  • D: 学習データ精度 75%、テストデータ精度 74%

正解: C

解説: 学習データで99%と極端に高い精度を出しているにもかかわらず、テストデータでは65%に大きく低下しています。これはモデルが学習データのパターン(ノイズ含む)を暗記してしまい、新しいデータへの汎化ができていない過学習の典型的な兆候です。


Q5. 評価指標の選択

離反率 5% のデータで「全員離反しない」と予測した場合、正解率は 95% になります。この問題を適切に評価するために最も重要な指標はどれですか?

  • A: 正解率(Accuracy)
  • B: 再現率(Recall)
  • C: データ件数
  • D: 学習時間

正解: B

解説: 不均衡データでは正解率は誤解を招きます。離反予測では「離反者を見逃さない」ことが重要なため、再現率(実際の離反者のうち正しく予測できた割合)が重要な指標です。F1スコアと合わせて評価するのが望ましいです。


結果

5問中の正解数を確認してください。

  • 5問正解: 素晴らしい!Step 2 に進みましょう。
  • 4問正解: 合格です。間違えた問題を復習してから次へ進みましょう。
  • 3問以下: Step 1 のレッスンを再度読み直してから、もう一度挑戦しましょう。

推定所要時間: 15分