クイズの説明
Step 3で学んだモニタリングと可観測性について理解度をチェックします。
- 全10問
- 合格ライン: 80%(8問正解)
- 不合格の場合は復習してから再挑戦してください
問題
Q1. LLMシステムのプロンプトログを収集する際、個人情報を含む可能性がある入力データの適切な扱いはどれですか?
- A) そのまま全てログに記録する
- B) 入力データをハッシュ化して記録し、原本は暗号化して別途保存する
- C) ログ収集を行わない
- D) 個人情報をランダムな文字列に置換する
答えを見る
正解: B
プロンプトログの収集は監視・品質改善に不可欠ですが、個人情報保護も必要です。入力データのハッシュ値をログに記録して同一性の検証を可能にしつつ、原本は暗号化してアクセス制御の厳しいストレージに保存することで、監査可能性とプライバシー保護を両立します。
Q2. LLM品質メトリクスの「LLM-as-Judge」手法の特徴として正しいものはどれですか?
- A) 人間の評価者が全件を手動で評価する手法
- B) 別のLLMを使って出力品質を自動評価する手法
- C) ユーザーのクリック率で品質を判定する手法
- D) 出力テキストの文字数で品質を判定する手法
答えを見る
正解: B
LLM-as-Judgeは、評価対象のLLM出力を別のLLM(通常はより高性能なモデル)に評価させる手法です。正確性、関連性、有害性などの観点でスコアリングを行い、大量のリクエストに対して自動的に品質評価を実施できます。
Q3. データドリフトとコンセプトドリフトの違いとして正しいものはどれですか?
- A) データドリフトはモデルが原因、コンセプトドリフトはデータが原因
- B) データドリフトは入力分布の変化、コンセプトドリフトは入力と正解の関係の変化
- C) データドリフトは突発的、コンセプトドリフトは漸進的
- D) データドリフトは検出可能、コンセプトドリフトは検出不可能
答えを見る
正解: B
データドリフトは入力データの統計的分布が変化すること(例: 新カテゴリの商品が増加)、コンセプトドリフトは入力とあるべき出力の関係自体が変化すること(例: ユーザーの嗜好が変化)です。どちらも突発的にも漸進的にも発生し得ます。
Q4. PSI(Population Stability Index)の値が0.25だった場合の解釈として正しいものはどれですか?
- A) 分布に有意な変化なし、通常運用を継続
- B) 軽微な変化あり、監視を強化
- C) 重大な分布変化あり、原因調査とモデル再評価が必要
- D) PSIが正の値なのでモデルが改善されている
答えを見る
正解: C
PSI > 0.2は入力データの分布に重大な変化が生じていることを示します。モデルが学習時に想定していなかったパターンの入力が増えている可能性が高く、原因の調査とモデルの再評価・再学習の検討が必要です。
Q5. アラート設計で「連続N回超過で初めて発報する」ルールを設ける主な理由は何ですか?
- A) アラートの送信コストを削減するため
- B) 一時的なスパイクによる偽陽性アラートを抑制し、アラート疲れを防ぐため
- C) アラートの遅延を意図的に作るため
- D) メトリクスの精度を向上させるため
答えを見る
正解: B
一時的なスパイク(ネットワークの瞬断、一時的な負荷集中など)で毎回アラートが発報されると、運用チームがアラート疲れを起こし、本当に重要なアラートも無視されるリスクがあります。連続N回の条件を設けることで、一過性の変動を除外し、真の異常のみを通知できます。
Q6. LLMシステム向けダッシュボードで「エグゼクティブダッシュボード」に含めるべき情報はどれですか?
- A) 個別リクエストのログ詳細
- B) 月次AIコスト推移、主要KPIサマリー、インシデント件数推移
- C) プロンプトテンプレートの一覧
- D) モデルのハイパーパラメータ設定
答えを見る
正解: B
エグゼクティブダッシュボードは経営層向けであり、ビジネスに直結する高レベルの情報(コスト、品質KPI、インシデント)を表示します。技術的な詳細(ログ、プロンプト、パラメータ)はオペレーションやデバッグダッシュボードに含めます。
Q7. ランブックに含めるべき要素として最も重要なものはどれですか?
- A) アラートの技術的な仕組みの説明
- B) 具体的な対処手順(ステップバイステップ)とエスカレーション先
- C) アラートルールのソースコード
- D) ダッシュボードのスクリーンショット
答えを見る
正解: B
ランブックの最大の目的は、アラート受信者が迅速に対応できることです。具体的な確認手順、対処方法、エスカレーション先が明確に記載されていることが最も重要です。深夜のオンコール対応でも、手順に従えば適切に対処できることが理想です。
Q8. 埋め込みベクトルを使ったプロンプトドリフト検出の利点は何ですか?
- A) 計算コストが最も低い
- B) プロンプトの意味的な変化を捉えられるため、キーワードの変化だけでなくトピック全体の変化を検出できる
- C) リアルタイムで検出できる
- D) 100%の精度でドリフトを検出できる
答えを見る
正解: B
埋め込みベクトルはテキストの意味を数値化するため、表面的なキーワードの変化だけでなく、問い合わせトピック全体の変化(例: 製品の問い合わせからクレームが増加)を検出できます。コサイン距離などでドリフト量を定量化できる点も利点です。
Q9. モニタリング基盤の技術スタックとして、ログ集約にCloudWatch Logs + Athenaを選定する利点は何ですか?
- A) リアルタイム処理に最適
- B) S3にログを長期保存しつつ、SQLで柔軟にアドホック分析できるコスト効率の良さ
- C) 最も高速なクエリ性能
- D) オンプレミス環境でも動作する
答えを見る
正解: B
CloudWatch LogsはリアルタイムのログストリーミングとS3へのエクスポートが容易で、AthenaはS3上のデータに対してサーバーレスでSQLクエリを実行できます。ログの長期保存コストを抑えつつ、必要な時にアドホックな分析を行える点がLLMシステムの運用に適しています。
Q10. AIシステムの品質スコアが徐々に低下するトレンドが検出された場合、最初に実施すべき調査は何ですか?
- A) 即座にモデルを再学習する
- B) 入力データのドリフト分析と直近のシステム変更履歴の確認
- C) サーバーを再起動する
- D) 品質スコアの閾値を引き下げる
答えを見る
正解: B
品質低下の原因は多岐にわたるため、まず入力データの分布変化(データドリフト)の確認と、直近のシステム変更(モデルバージョン、プロンプト変更、インフラ変更)の確認を行います。原因を特定せずにモデルを再学習しても効果がない可能性があり、閾値を変更するのは根本解決になりません。
結果
8問以上正解の場合
合格です。Step 3「モニタリングと可観測性」を完了しました。 次はStep 4「コスト最適化戦略」に進みましょう。
7問以下の場合
もう少し復習しましょう。
| 問題 | 復習セクション |
|---|---|
| Q1 | step3_1 プロンプトログ収集 |
| Q2 | step3_2 品質メトリクス |
| Q3 | step3_3 ドリフト検出 |
| Q4 | step3_3 ドリフト検出 |
| Q5 | step3_4 アラートとダッシュボード |
| Q6 | step3_4 アラートとダッシュボード |
| Q7 | step3_4 アラートとダッシュボード |
| Q8 | step3_3 ドリフト検出 |
| Q9 | step3_4 アラートとダッシュボード |
| Q10 | step3_3 ドリフト検出 |
推定所要時間: 30分