# L21301 數據準備與模型選擇 — 模擬試題 30 題

> 題型：四選一單選題（iPAS AI 規劃師中級 標準題型）
> 教材來源：`chunks/L21301.txt`（每題解析末標 chunks 行號）
> 視覺輔助：`output4/L21301_數據準備與模型選擇/images/` 投影片
> 命題原則：用易混淆概念設計干擾項（同類項換位、屬性錯配、定義 partial swap）

---

## 第一部分｜前言與章節導覽（Q1）

### Q1
教材引用「垃圾進，垃圾出（Garbage In, Garbage Out, GIGO）」這句業界名言，**核心意涵**為何？
- (A) 模型架構越複雜，預測準確度越高
- (B) 資料品質直接影響 AI 模型的可靠性與準確度
- (C) 演算法的選擇比資料準備更重要
- (D) AI 模型可自動修正所有資料錯誤

**答案：(B)**
解析：GIGO 強調「資料品質決定模型成敗」，這是教材開宗明義的核心觀念，後續資料收集、清理、特徵工程都圍繞此原則。（chunks line 9）

---

## 第二部分｜資料收集與清理（Q2–Q9）

### Q2
下列關於「內部資料來源」與「外部資料來源」的分類，何者**錯誤**？
- (A) ERP（Enterprise Resource Planning）→ 內部資料來源
- (B) CRM（Customer Relationship Management）→ 內部資料來源
- (C) 政府開放資料平台 → 外部資料來源
- (D) 機台資料（Machine Data）→ 外部資料來源

**答案：(D)**
解析：機台資料來自生產機台、設備與工廠自動化系統，屬「內部資料」，是智慧製造的關鍵資產。常見干擾把內外部資料來源對調。（chunks line 21–31）

---

### Q3
下列關於「Web Scraping（網頁爬蟲）」的敘述，何者**正確**？
- (A) 屬於企業內部 ERP 系統的資料抽取方式
- (B) 從網站上自動擷取網頁內容（如價格資訊、評論資料、新聞文章），需特別注意網站條款與資料使用合規性
- (C) 是一種特徵工程方法
- (D) 是降維演算法的一種

**答案：(B)**
解析：Web Scraping = 外部資料來源之一，用於市場競爭分析、輿情監測；教材特別提醒合規性。（chunks line 37）

---

### Q4
下列關於「缺失值（Missing Values）處理」的方法對應，何者**錯誤**？
- (A) 使用平均數 / 中位數填補（Mean/Median Imputation）
- (B) 前後值填補（Forward/Backward Fill）
- (C) 插值法（Interpolation）
- (D) 使用 Z-score 篩選異常資料

**答案：(D)**
解析：Z-score 是**異常值偵測**方法，不是缺失值處理。常見干擾把缺失值與異常值處理方法對調。（chunks line 45–47、53）

---

### Q5
下列關於「異常值（Outliers）檢測與處理」的方法，何者**並非**教材所列？
- (A) Z-score
- (B) IQR（Interquartile Range）
- (C) Isolation Forest
- (D) One-hot Encoding

**答案：(D)**
解析：One-hot Encoding 是**類別特徵編碼**方法。異常值偵測 = Z-score / IQR / Isolation Forest / LOF（Local Outlier Factor）。（chunks line 53、81）

---

### Q6
下列關於「資料品質評估指標」的配對，何者**錯誤**？
- (A) 完整性（Completeness）：資料是否完整，是否缺少關鍵欄位
- (B) 一致性（Consistency）：資料欄位間邏輯是否一致，像是年齡欄位不應為負數
- (C) 準確性（Accuracy）：資料是否是最新的
- (D) 唯一性（Uniqueness）：資料是否有重複或衝突，特別是主鍵欄位

**答案：(C)**
解析：準確性 = 資料值是否準確反映真實世界狀況；「資料是否最新」是**即時性（Timeliness）**。常見干擾把 Accuracy 與 Timeliness 對調。（chunks line 55–65）

---

### Q7
下列關於「正規化（Normalization）」與「標準化（Standardization）」的差異，何者**正確**？
- (A) 兩者意義相同可互換
- (B) Normalization 將數值轉換至 0 到 1 之間；Standardization 將數值轉換為平均數 0、標準差 1 的分布（通常用 Z-score）
- (C) Normalization 必須先做 PCA 才能執行
- (D) Standardization 只適用於類別特徵

**答案：(B)**
解析：Normalization = Min-Max 縮放到 [0,1]；Standardization = Z-score 平均 0 標準差 1。對需計算梯度的模型（線性迴歸、SVM）標準化特別有效。（chunks line 73–77）

---

### Q8
下列關於「獨熱編碼（One-hot Encoding）」與「標籤編碼（Label Encoding）」的差異，何者**正確**？
- (A) 兩者完全相同
- (B) One-hot Encoding 將類別轉為二進位欄位，適用於無序分類變數；Label Encoding 將類別轉為整數，適用於有序類別（如高中、學士、碩士）
- (C) One-hot Encoding 適用於有序類別；Label Encoding 適用於無序類別
- (D) 兩者都只能處理數值特徵

**答案：(B)**
解析：One-hot = 無序類別（每類獨立 0/1 欄位）；Label = 有序類別（賦予大小有意義的整數）。常見干擾把兩者適用情境對調。（chunks line 79–83）

---

### Q9
TFIDF（Term Frequency-Inverse Document Frequency）的主要用途為何？
- (A) 異常值偵測
- (B) 從文字欄位中抽取關鍵詞或轉換為數值形式
- (C) 類別特徵的編碼方法
- (D) 降維方法的一種

**答案：(B)**
解析：TFIDF 與 Word Embeddings 用於將文字轉為數值型資料，方便機器學習模型處理。屬時間與結構特徵擴增的「文字處理」。（chunks line 89）

---

## 第三部分｜特徵選擇、降維與 AutoML（Q10–Q15）

### Q10
下列關於「特徵選擇（Feature Selection）」方法的敘述，何者**錯誤**？
- (A) 資訊增益（Information Gain）：衡量特徵在預測中帶來的資訊量
- (B) 皮爾森相關係數（Pearson Correlation Coefficient）：衡量數值特徵之間的線性相關性
- (C) L1 正則化（Lasso）：通過懲罰模型的複雜度來選擇最具影響力的特徵
- (D) One-hot Encoding：將數值特徵自動轉為高貢獻特徵集

**答案：(D)**
解析：One-hot Encoding 是類別特徵編碼，**不是**特徵選擇方法。教材列出的三種特徵選擇 = Information Gain / Pearson / L1 Lasso。（chunks line 91–101）

---

### Q11
下列關於「主成分分析（PCA, Principal Component Analysis）」的敘述，何者**正確**？
- (A) 用於資料標註自動化
- (B) 透過找到資料中方差最大的方向來減少維度，保留大部分資料訊息；適用於高維資料，能減少計算負擔並提高模型效能
- (C) 屬於監督式分類演算法
- (D) 只能處理類別型特徵

**答案：(B)**
解析：PCA = 線性降維，保留資料最大變異方向；屬於非監督式學習範疇，常用於高維資料壓縮。（chunks line 105）

---

### Q12
下列關於「t-SNE / UMAP」的主要用途，何者**最正確**？
- (A) 模型加速推論的部署工具
- (B) 常用於視覺化資料分佈，便於人為觀察特徵空間的分類趨勢
- (C) 取代 PCA 進行所有降維任務的標準方法
- (D) 強化式學習的核心演算法

**答案：(B)**
解析：t-SNE / UMAP 是**視覺化導向**的非線性降維工具，幫助人為觀察分群結構；PCA 偏壓縮與通用降維。兩者目的不同。（chunks line 107）

---

### Q13
下列何者**並非**教材所列 AutoML 平台範例？
- (A) Google AutoML
- (B) H2O.ai
- (C) AutoKeras
- (D) Stable Diffusion

**答案：(D)**
解析：Stable Diffusion 是擴散模型生成圖像工具，**不是**自動化機器學習平台。教材所列 AutoML 平台 = Google AutoML / H2O.ai / AutoKeras / TPOT。（chunks line 111–113）

---

### Q14
下列關於「自動特徵工程（Auto Feature Engineering）」核心功能的敘述，何者**錯誤**？
- (A) 自動創建新特徵（如將日期拆分為年、月、日、星期）
- (B) 透過 Random Forest 或 L1 Lasso 自動篩選對目標變數影響最大的特徵
- (C) 檢測並創建特徵之間的交互作用（Interaction）
- (D) 完全取代資料科學家的所有判斷，使其不再需要參與專案

**答案：(D)**
解析：AutoML 是**輔助**資料科學家加速流程、降低門檻，並非完全取代。教材強調 AutoML 釋出時間讓資料科學家聚焦分析與優化模型本身。（chunks line 115–145）

---

### Q15
AutoML 在特徵工程中的優勢**不包含**下列何者？
- (A) 加速資料科學流程
- (B) 降低技術門檻
- (C) 透過自動生成和篩選特徵提升預測準確性
- (D) 自動修正資料品質問題並保證 100% 完美的訓練資料

**答案：(D)**
解析：AutoML 可選擇合適的缺失資料填補方式，但無法保證「100% 完美」資料 — 仍需資料治理基礎。教材所列優勢 = 加速 + 降低門檻 + 高效能。（chunks line 139–145）

---

## 第四部分｜模型選擇 - 監督式學習（Q16–Q22）

### Q16
下列關於監督式學習任務分類的敘述，何者**正確**？
- (A) 預測連續數值（如銷售量、房價）→ 分類任務
- (B) 預測連續數值（如銷售量、房價）→ 迴歸任務；將資料歸類為離散標籤（如垃圾郵件 vs 正常）→ 分類任務
- (C) 兩者意義相同可互換
- (D) 分類任務只用於非監督式學習

**答案：(B)**
解析：迴歸 = 連續數值預測；分類 = 離散標籤預測 — 兩種監督式學習的核心差異。常見干擾把迴歸與分類定義對調。（chunks line 151–171）

---

### Q17
下列演算法**並非**教材所列「監督式學習-迴歸任務」常見演算法？
- (A) 線性迴歸（Linear Regression）
- (B) 決策樹迴歸（Decision Tree Regression）
- (C) 隨機森林迴歸（Random Forest Regression）
- (D) K-means

**答案：(D)**
解析：K-means 是**非監督式分群演算法**。教材所列迴歸演算法 = Linear / Decision Tree / Random Forest / Gradient Boosting Regression。（chunks line 155–161）

---

### Q18
下列關於「邏輯迴歸（Logistic Regression）」的敘述，何者**正確**？
- (A) 用於連續數值預測的迴歸任務
- (B) 用於二元或多元分類問題，透過 Sigmoid 函數將預測值轉為機率，再根據機率進行分類判斷
- (C) 屬於非監督式學習
- (D) 不適用於特徵與類別之間具線性可分的情況

**答案：(B)**
解析：Logistic Regression 名為「迴歸」實為**分類**，輸出 Sigmoid 機率。常見干擾誤把它歸為迴歸任務。（chunks line 175）

---

### Q19
下列關於「決策樹分類（Decision Tree Classification）」的特性，何者**錯誤**？
- (A) 以條件分支的方式進行分類，具備良好的解釋性
- (B) 適用於處理非線性與混合型特徵的分類問題
- (C) 容易過度擬合
- (D) 必須假設特徵之間完全線性相關才能訓練

**答案：(D)**
解析：決策樹**不要求**特徵線性相關，反而擅長處理非線性與混合型特徵 — 這是它相對線性模型的優勢。（chunks line 177）

---

### Q20
下列關於「支持向量機（SVM）」的敘述，何者**正確**？
- (A) 透過尋找最佳超平面以分隔不同類別，對高維資料或邊界清晰的分類問題表現良好，亦可透過核函數處理非線性分類
- (B) 屬於非監督式分群演算法
- (C) 只能處理線性可分的二元分類問題
- (D) 不需要任何超參數調整

**答案：(A)**
解析：SVM 核心 = 最大 Margin 超平面 + Kernel Trick 處理非線性。是經典監督式分類演算法。（chunks line 181）

---

### Q21
下列關於「K 最近鄰（KNN, K-Nearest Neighbors）」的特性，何者**正確**？
- (A) 訓練速度極慢，預測速度極快
- (B) 根據鄰近資料的類別進行預測，簡單直觀但對資料量與維度敏感，適合用於小型資料集或特徵空間分布明顯的情境
- (C) 不需要計算距離
- (D) 完全不受特徵尺度影響

**答案：(B)**
解析：KNN = 惰性學習，訓練快但預測慢；對高維與大資料量敏感（維度詛咒）；對特徵尺度敏感需縮放。（chunks line 183）

---

### Q22
某企業要預測「客戶是否會流失」（是 / 否的二元判斷），下列何種任務類型最適合？
- (A) 迴歸任務（Regression）
- (B) 分類任務（Classification）
- (C) 分群任務（Clustering）
- (D) 降維任務（Dimensionality Reduction）

**答案：(B)**
解析：「是 / 否」二元判斷 = 分類任務（離散標籤）；Logistic Regression、決策樹、SVM 皆可用。教材原型應用情境「客戶流失預測」。（chunks line 193、171）

---

## 第五部分｜模型選擇 - 非監督/深度/強化/生成（Q23–Q30）

### Q23
下列關於 K-means 與 DBSCAN 的差異，何者**正確**？
- (A) 兩者都需要事先給定群集數 K
- (B) K-means 須事先給定 K 值且對初始點與異常值敏感；DBSCAN 不需預先給定群集數，能發現任意形狀的群集並自動將離群點標示為雜訊
- (C) DBSCAN 只能發現球形群集
- (D) K-means 適合含雜訊或密度變化明顯的資料

**答案：(B)**
解析：K-means 限制 = 需 K + 球形假設 + 對異常敏感；DBSCAN 優勢 = 免 K + 任意形狀 + 雜訊偵測。常見混淆對。（chunks line 203–205）

---

### Q24
下列關於「階層式分群（Hierarchical Clustering）」的特性，何者**正確**？
- (A) 必須預先指定 K 值
- (B) 建立資料之間的樹狀層級關係（如 Dendrogram），可自上而下或自下而上逐層劃分群集，無需指定群集數
- (C) 僅適用於二維資料
- (D) 屬於監督式學習

**答案：(B)**
解析：階層式分群 = 樹狀層級 + 無需指定 K + 可探索分群層級結構，這是相對 K-means 的優勢。（chunks line 207）

---

### Q25
下列關於「卷積神經網路（CNN）」的應用情境，何者**最符合**教材定義？
- (A) 處理時間序列資料（如語音、文字、感測器資料）
- (B) 主要用於處理圖像資料與空間特徵萃取，常用於人臉辨識、工業檢測、自動駕駛等任務
- (C) 強化式學習的核心架構
- (D) 主要用於分群任務

**答案：(B)**
解析：CNN = 圖像 / 空間特徵；RNN/LSTM/GRU = 時序資料；Transformer = NLP / 跨模態。常見干擾把三大深度學習架構應用對調。（chunks line 225）

---

### Q26
下列關於「Transformer 架構」的敘述，何者**最正確**？
- (A) 透過卷積與池化處理影像資料
- (B) 透過自注意力（Self-Attention）機制建構語意關聯，在 NLP 領域成為主流，代表模型如 BERT、GPT
- (C) 是傳統 RNN 的別名
- (D) 不能應用於跨模態學習

**答案：(B)**
解析：Transformer 核心 = Self-Attention；代表模型 BERT（雙向編碼器）、GPT（生成式預訓練）。已廣泛用於語意理解、生成與跨模態。（chunks line 229）

---

### Q27
下列關於「強化式學習（Reinforcement Learning, RL）」的特性，何者**正確**？
- (A) 需要大量明確標註的訓練資料
- (B) 屬於非監督式學習的一種
- (C) 透過智能體（Agent）在環境中嘗試行動（Action）、觀察結果（State）、根據獎勵（Reward）進行策略調整，依靠互動經驗學習
- (D) 不需設計獎勵函數

**答案：(C)**
解析：RL 核心 = Agent / Action / State / Reward + 試誤學習；與監督式不同，不需明確標註資料。（chunks line 243）

---

### Q28
下列關於 RL 演算法的對應，何者**錯誤**？
- (A) Q-learning：基於值函數的方法，透過表格或近似函數學習每個狀態-行為對的預期回報
- (B) DQN（Deep Q Network）：結合深度學習與 Q-learning，能處理高維度的感知輸入（如圖像）
- (C) PPO（Proximal Policy Optimization）：由 OpenAI 提出，屬於策略梯度方法的改良版本，平衡策略更新幅度與學習效率
- (D) PCA（Principal Component Analysis）：強化式學習的代表演算法

**答案：(D)**
解析：PCA 是非監督式降維演算法，**不是** RL。教材 RL 演算法 = Q-learning / DQN / Policy Gradient（REINFORCE、Actor-Critic）/ PPO。（chunks line 247–255、105）

---

### Q29
下列關於「生成對抗網路（GANs）」的敘述，何者**正確**？
- (A) 屬於判別式模型，只負責分類
- (B) 透過兩個神經網路（生成器與判別器）對抗訓練，生成器負責產生偽造樣本，判別器判斷其真偽，雙方互相提升；缺點是訓練不穩定，可能出現模式崩潰（Mode Collapse）
- (C) 不能用於圖像生成
- (D) 訓練過程完全穩定，沒有任何已知限制

**答案：(B)**
解析：GAN 核心 = Generator vs Discriminator 對抗訓練；典型缺點 = 訓練不穩 + Mode Collapse。常見干擾項。（chunks line 273）

---

### Q30
下列關於「擴散模型（Diffusion Models）」的特性，何者**正確**？
- (A) 計算速度快、運算成本低
- (B) 是最早被提出的生成式模型，比 GAN 與 VAE 都還早
- (C) 透過逐步加入與移除噪聲的方式訓練模型，學習資料轉換的反向過程；代表應用如 DALL·E 2、Stable Diffusion；缺點是生成速度慢、運算成本高
- (D) 只能生成文字，不能生成圖像

**答案：(C)**
解析：Diffusion Models = 近期最具突破的生成技術，逐步加噪/去噪訓練；代表應用 DALL·E 2、Stable Diffusion。缺點是速度慢成本高。（chunks line 277）

---

## 答案速查表

| Q | 答 | Q | 答 | Q | 答 |
|---|---|---|---|---|---|
| 1 | B | 11 | B | 21 | B |
| 2 | D | 12 | B | 22 | B |
| 3 | B | 13 | D | 23 | B |
| 4 | D | 14 | D | 24 | B |
| 5 | D | 15 | D | 25 | B |
| 6 | C | 16 | B | 26 | B |
| 7 | B | 17 | D | 27 | C |
| 8 | B | 18 | B | 28 | D |
| 9 | B | 19 | D | 29 | B |
| 10 | D | 20 | A | 30 | C |

## 命題分布統計

| 章節 | 題號 | 題數 | 重點 |
|---|---|---:|---|
| 前言與章節導覽 | Q1 | 1 | GIGO 核心觀念 |
| 資料收集與清理 | Q2–Q9 | 8 | 內外部資料來源、缺失值/異常值處理、資料品質五指標、特徵編碼 |
| 特徵選擇、降維與 AutoML | Q10–Q15 | 6 | Feature Selection 三法、PCA vs t-SNE、AutoML 平台與優勢 |
| 模型選擇-監督式 | Q16–Q22 | 7 | 迴歸 vs 分類、LR/DT/SVM/KNN 特性、實務任務對應 |
| 模型選擇-非監督/深度/強化/生成 | Q23–Q30 | 8 | K-means vs DBSCAN、CNN/RNN/Transformer、RL 演算法、GAN/VAE/Diffusion |
| **合計** | — | **30** | — |

## 易混淆考點清單（找混淆提示詞輸出）

| # | 易混淆對 | 差異 |
|---|---|---|
| 1 | 內部資料來源 vs 外部資料來源 | ERP/CRM/機台/POS = 內部；開放資料/Web Scraping/商業資料庫 = 外部（Q2） |
| 2 | 缺失值處理 vs 異常值偵測 | 缺失值 = Mean/Median/Interpolation；異常值 = Z-score/IQR/Isolation Forest/LOF（Q4/Q5） |
| 3 | 資料品質五指標 | Completeness/Consistency/Accuracy/Timeliness/Uniqueness — 各指標定義易混（Q6） |
| 4 | Normalization vs Standardization | Normalization = [0,1] Min-Max；Standardization = Z-score（mean 0, std 1）（Q7） |
| 5 | One-hot vs Label Encoding | One-hot = 無序類別；Label = 有序類別（高中/學士/碩士）（Q8） |
| 6 | PCA vs t-SNE/UMAP | PCA = 線性降維+壓縮；t-SNE/UMAP = 非線性+視覺化（Q11/Q12） |
| 7 | 迴歸任務 vs 分類任務 | 迴歸 = 連續數值；分類 = 離散標籤（LR 雖名「迴歸」實為分類）（Q16/Q18） |
| 8 | K-means vs DBSCAN | K-means 需 K + 球形 + 對異常敏感；DBSCAN 免 K + 任意形狀 + 雜訊偵測（Q23） |
| 9 | CNN vs RNN/LSTM vs Transformer | CNN = 圖像；RNN/LSTM = 時序；Transformer = NLP/Self-Attention（Q25/Q26） |
| 10 | GAN vs VAE vs Diffusion | GAN = 對抗訓練(Mode Collapse)；VAE = 潛在空間+平滑；Diffusion = 加噪去噪+品質高但慢（Q29/Q30） |

---

— 命題：Heiter（2026-05-12）
— 對應教材版本：iPAS AI 規劃師中級 科目一 L21301 5.1 數據準備與模型選擇