# L23301 數據準備與特徵工程 — 模擬試題 30 題

> 題型：四選一單選題（iPAS AI 規劃師中級 標準題型）
> 教材來源：`chunks/L23301.txt`（每題解析末標 chunks 行號）
> 視覺輔助：`output3/L23301_數據準備與特徵工程/images/` 投影片
> 命題原則：用易混淆概念設計干擾項（同類項換位、屬性錯配、定義 partial swap）

---

## 第一部分｜前言與資料清理（Q1–Q9）

### Q1
下列關於資料品質與特徵表達在機器學習流程中**重要性**的敘述，何者**正確**？
- (A) 演算法本身是決定模型表現的唯一因素,資料品質不重要
- (B) 「資料品質與特徵表達」往往比演算法本身更決定模型的最終表現,即使使用最先進演算法,若資料具有錯誤或資訊不足,仍難以得出良好結果
- (C) 只要演算法夠先進,即使資料有錯也能自動修正
- (D) 特徵工程僅適用於分類任務,迴歸不需要

**答案：(B)**
解析：教材明確指出資料品質與特徵表達比演算法本身更決定模型最終表現；數據準備與特徵工程不僅是建模前必要步驟,更是模型效能與穩定性的基礎建設。（chunks line 9–11）

---

### Q2
資料缺失值（Missing Value）的處理方法中，下列何者屬於「**填補法（Imputation）**」？
- (A) 直接刪除含缺值的列或欄
- (B) 均值、中位數、眾數填補
- (C) 將整筆樣本標記為異常值
- (D) 把缺失資料移到備份檔

**答案：(B)**
解析：填補法包含均值/中位數/眾數填補、相似樣本填補（如 Hot Deck、KNN）、預測模型填補等。(A) 是刪除法（Deletion）;(C)(D) 都不是教材定義的處理方式。（chunks line 19–35）

---

### Q3
下列關於「**缺失指標編碼（Missing Indicator）**」的敘述，何者**正確**？
- (A) 直接將缺失資料用 0 填入,不留任何記號
- (B) 新增欄位**標示是否缺失**,有助模型學習隱含資訊,常見於樹模型中
- (C) 把缺失欄位整欄移除
- (D) 用 KNN 對缺失值進行預測填補

**答案：(B)**
解析：缺失指標編碼 = 新增一個欄位（is_missing）標示「該值是否缺失」,讓樹模型能利用「缺失與否」這個訊號本身做分裂。常與其他填補法併用。（chunks line 37–39）

---

### Q4
下列關於異常值（Outlier）偵測「**統計方法**」的敘述，何者**正確**？
- (A) Isolation Forest 與 LOF 屬於統計方法
- (B) 利用 **Z 分數（Z-score）** 或**四分位距（IQR）** 界定明顯偏離的觀測值
- (C) 散佈圖與箱型圖屬於統計方法
- (D) 必須先用神經網路學習後,才能判斷異常值

**答案：(B)**
解析：統計方法 = Z-score / IQR；視覺化分析 = 箱型圖/散佈圖/時間序列圖；機器學習方法 = Isolation Forest / LOF。三類別不要混淆。（chunks line 45–55）

---

### Q5
下列關於異常值的「**處理策略**」中，何者**錯誤**？
- (A) 移除：在可確認錯誤輸入時直接刪除
- (B) 截尾與轉換：將值限制於上下邊界內,或進行對數、Box-Cox 等轉換
- (C) 標記保留：當異常值本身具有預測價值（如欺詐偵測）時保留,並作為特徵輸入
- (D) 必須**永遠移除**所有異常值,否則模型必定失敗

**答案：(D)**
解析：教材列出三種處理策略：移除/截尾轉換/標記保留 — 異常值本身在某些任務（如欺詐偵測）反而具預測價值,不應一律移除。常見干擾項以絕對化敘述誘答。（chunks line 57–69）

---

### Q6
下列何者**並非**處理重複樣本與資料一致性檢查的常見做法？
- (A) 透過主鍵比對或欄位相似度判斷資料重複
- (B) 統一數據單位（如公克與公斤）、時間格式與類別值（如「male」「男」）
- (C) 直接刪除所有大於樣本均值的觀測值
- (D) 確保資料集中沒有同一觀察單位多次出現

**答案：(C)**
解析：(C) 把資料清理與異常值處理混為一談 — 大於均值不等於重複,直接刪除不合理。(A)(B)(D) 都是教材的標準做法。（chunks line 73–83）

---

### Q7
下列關於「**模型對資料品質的敏感度**」的敘述，何者**正確**？
- (A) 樹模型（如 XGBoost、Random Forest）對缺值與異常值具**較高容忍度**,能自動處理部分遺失資訊
- (B) 樹模型對缺值最敏感,必須完全填補
- (C) 線性模型對缺值不敏感,可隨意忽略
- (D) 神經網路無需特徵正規化即可正常訓練

**答案：(A)**
解析：樹模型對缺值/異常值容忍度高（可自動分裂處理）；線性模型與神經網路對輸入資料較敏感,需特別注意缺值補全與特徵正規化,否則容易訓練不穩或偏誤。常見干擾項對調。（chunks line 99–103）

---

### Q8
下列何者**屬於**「資料處理紀錄與流程可追溯性（Data Lineage）」的好處？
- (A) 可隨意刪除歷史紀錄以節省儲存空間
- (B) 可確保資料處理流程**被還原、驗證與持續維護**,有助透明度、重現性與資料治理合規
- (C) 加快訓練速度,直接提升模型準確度
- (D) 取代特徵工程的角色

**答案：(B)**
解析：Data Lineage 紀錄欄位處理邏輯、填補方法、異常值調整依據等,確保流程可追溯,符合資料治理與法規合規最佳實務。（chunks line 105–109）

---

### Q9
下列關於資料型別轉換與欄位格式調整的敘述，何者**錯誤**？
- (A) 確保數值型與類別型資料正確標示,以利後續特徵工程與模型處理
- (B) 時間資料可解析為時間戳、週期性變數（如星期幾、月份）或進行時間差計算
- (C) 時間資料解析有助於時間序列建模
- (D) 類別變數可直接以原始字串輸入所有機器學習模型,完全不需轉換

**答案：(D)**
解析：大多數演算法（如邏輯迴歸、SVM、神經網路）**無法直接處理類別變數**,需先進行類別資料編碼（Label Encoding / One-hot / Target Encoding 等）。（chunks line 85–93、202–204）

---

## 第二部分｜特徵選擇與降維（Q10–Q15）

### Q10
下列關於特徵選擇（Feature Selection）**本質**的敘述，何者**正確**？
- (A) 從現有特徵中進行「選擇」,**不創造新的特徵**,目的是保留最具價值的特徵
- (B) 主動生成新的特徵,擴展原始資料維度
- (C) 把原始資料壓縮為單一一維純量
- (D) 必然會導致模型解釋性下降

**答案：(A)**
解析：教材定義 — 特徵選擇是從所有可用原始特徵中篩選最佳子集,不創造新特徵；目的是降低維度同時保留關鍵資訊。常與「特徵工程」（會創造新特徵）混淆。（chunks line 113–115）

---

### Q11
下列關於 **Filter 方法（過濾法）**的敘述，何者**錯誤**？
- (A) 透過統計量或相關係數,獨立於模型之外快速篩選重要特徵
- (B) 常用統計方法包括皮爾森相關係數、卡方檢定（Chi-square Test）、ANOVA 檢定
- (C) 優點：速度快、不依賴特定模型
- (D) 能完整考量特徵之間的交互作用

**答案：(D)**
解析：Filter 方法**獨立於模型**逐一評估特徵,**無法考慮特徵間交互作用**(這是其限制)；Wrapper 方法才能精確考量特徵互動效果。常見干擾項對調。（chunks line 119–127）

---

### Q12
下列關於 **Wrapper 方法（包裝法）**的敘述，何者**正確**？
- (A) 使用模型表現（如準確率、F1-score）作為標準,透過遞迴特徵消除（Recursive Feature Elimination, RFE）或前向/後向選擇進行篩選
- (B) 完全獨立於模型之外,不需訓練任何模型
- (C) 計算成本極低
- (D) 不會有過度擬合風險

**答案：(A)**
解析：Wrapper = 以模型表現為篩選標準,透過 RFE 或前向/後向選擇；優點是精確考量特徵互動;限制是計算成本高、可能過擬合。常見干擾把它跟 Filter 搞混。（chunks line 129–135）

---

### Q13
下列關於 **Embedded 方法（嵌入法）**的敘述，何者**正確**？
- (A) 必須在模型訓練之前完成所有特徵選擇
- (B) 在模型訓練**過程中**內建特徵選擇機制,例如決策樹模型的重要性分析或 Lasso、Ridge 等正則化方法
- (C) 與 Lasso 完全無關
- (D) 與 Filter 方法等價

**答案：(B)**
解析：Embedded 方法 = 模型訓練過程中同時做特徵選擇（如樹模型重要性、Lasso 壓零）；優點是建模同時完成;限制是需特定模型支援。（chunks line 137–142）

---

### Q14
下列關於 **PCA（主成分分析）**的敘述，何者**錯誤**？
- (A) 是一種線性降維方法
- (B) 透過**線性變換**,找出能最大化資料變異的方向
- (C) 廣泛用於視覺化、雜訊過濾與建模加速
- (D) 是一種**非線性**降維方法,能保留高維資料的局部鄰近關係

**答案：(D)**
解析：PCA 是**線性**降維（不是非線性）;(D) 描述的是 t-SNE/UMAP 的特性。常見干擾項對調。（chunks line 148–150）

---

### Q15
下列關於 **LDA（線性判別分析）vs PCA 的差異**，何者**正確**？
- (A) 兩者目標完全相同,都是非監督式降維
- (B) LDA 同為線性降維,但目標是**最大化類間差異、最小化類內變異**,適用於分類問題
- (C) LDA 不能用於分類問題
- (D) LDA 是非線性降維方法,類似 t-SNE

**答案：(B)**
解析：PCA = 非監督,最大化資料變異;LDA = 監督式線性降維,以最大類間差異/最小類內變異為目標,適合分類前置處理。常見混淆對。（chunks line 152–154）

---

## 第三部分｜特徵轉換與標準化（Q16–Q22）

### Q16
下列關於 **Min-Max Normalization（最小-最大正規化）**的敘述，何者**正確**？
- (A) 將數值線性縮放至 **0～1 區間**,保留原始變數的分佈比例,但對極端值敏感
- (B) 將數值轉換為平均值為 0、標準差為 1 的常態分佈
- (C) 使用中位數與四分位距（IQR）進行縮放
- (D) 不會被異常值影響

**答案：(A)**
解析：Min-Max = 縮放到 [0,1] 區間,保留原始比例,易於解釋；但**對極端值敏感**,異常值會壓縮其他數值縮放範圍。(B) 是 Z-score;(C) 是 Robust Scaling。（chunks line 172–176）

---

### Q17
**Z-score Standardization（Z 分數標準化）**會將數據轉換成何種特性？
- (A) [0,1] 區間
- (B) [-1,1] 區間
- (C) **平均值為 0、標準差為 1** 的常態分佈
- (D) 中位數為 0 的對數分佈

**答案：(C)**
解析：Z-score 公式 = (x - μ) / σ,結果平均為 0、標準差為 1。適用於符合常態分佈的資料；但仍對極端值敏感。（chunks line 178–182）

---

### Q18
**Robust Scaling（穩健標準化）**使用何種統計量進行縮放，使其對極端值有高抵抗性？
- (A) 平均值與標準差
- (B) 最大值與最小值
- (C) **中位數與四分位距（IQR）**
- (D) 眾數與全距

**答案：(C)**
解析：Robust Scaling 用中位數與 IQR,對極端值高度抵抗,適用於偏態分佈或含離群值的情境。常見干擾項以平均/標準差誘答（那是 Z-score）。（chunks line 184–188）

---

### Q19
下列關於分佈轉換的敘述，何者**錯誤**？
- (A) **對數轉換（Log Transform）** 常用於處理右偏分佈,降低極端值影響（如收入、銷售額）
- (B) 平方根 / 立方根轉換適用於中度偏態資料
- (C) Box-Cox / Yeo-Johnson 轉換能自動尋找最適指數轉換參數,將資料近似常態化
- (D) 對數轉換會放大極端值的影響,使偏態加劇

**答案：(D)**
解析：對數轉換是**壓縮**極端值（不是放大）,常用於右偏分佈,讓資料更接近常態。(A)(B)(C) 都正確。（chunks line 194–199）

---

### Q20
下列關於 **Label Encoding（標籤編碼）**的敘述，何者**正確**？
- (A) 將每個類別對應到一個整數編號,**適用於具明確順序關係**（Ordinal Variables）,如教育程度、服務等級
- (B) 將每個類別轉成 0/1 二元欄位
- (C) 必須結合目標變數統計量
- (D) 僅適用於無序類別（Nominal Variables）

**答案：(A)**
解析：Label Encoding 適合**有序類別**（小學→0、高中→1、大學→2）；若誤用於無序類別,模型可能誤解為數值具數學意義。(B) 是 One-hot;(C) 是 Target Encoding;(D) 顛倒適用對象。（chunks line 207–215）

---

### Q21
下列關於 **One-hot Encoding（獨熱編碼）vs Label Encoding** 的差異敘述，何者**正確**？
- (A) One-hot 適合**無序類別**（如城市、產品類型）,為每個類別新增一個欄位,保留完整資訊不引入順序誤解；Label 適合有序類別
- (B) One-hot 僅適用有序類別
- (C) One-hot 與 Label Encoding 完全相同
- (D) One-hot 必然壓縮特徵維度,節省記憶體

**答案：(A)**
解析：One-hot = 無序類別 → 為每個類別新增 is_X 欄位（紅/藍/綠 → 三欄）；類別多時會大幅增加維度（High Cardinality 問題）。Label = 有序類別。常見干擾對調。（chunks line 217–225）

---

### Q22
下列關於 **Target Encoding（目標編碼/平均編碼）**的敘述，何者**正確**？
- (A) 將每個類別以其在目標變數上的統計量（如平均值、中位數、轉換率）取代
- (B) 必定造成維度爆炸
- (C) 只能用於迴歸任務
- (D) 與 One-hot 編碼完全等價

**答案：(A)**
解析：Target Encoding 用「該類別在目標變數上的統計量」替代類別本身,適用於**高基數類別變數**（High Cardinality）且類別與目標變數高度關聯,優點是保留目標相關資訊且不造成維度爆炸。（chunks line 227–231）

---

## 第四部分｜資料增強與特徵工程策略（Q23–Q30）

### Q23
下列關於時間欄位的**結構化拆解**敘述，何者**正確**？
- (A) 時間戳記必須完整保留為單一欄位,不能拆解
- (B) 可分解為「年、月、日、星期幾、時段」等元素,這些元素往往與目標變數具有潛在關聯（例如銷售高峰常出現在假日或下班時段）
- (C) 拆解後資訊量必定下降
- (D) 不可使用三角函數編碼

**答案：(B)**
解析：原始時間戳記可分解為年/月/日/星期幾/時段等結構化特徵；另可用 sin/cos 三角函數進行**週期性編碼**,保留週期性結構（如一週七天的循環）。（chunks line 237–245）

---

### Q24
為什麼對「星期幾」等**週期性欄位**會使用 sin / cos 進行**週期性編碼**？
- (A) 為了把它變成離散類別
- (B) 為了保留時間的「週期性結構」與**相鄰關係**（如星期日與星期一其實在週期上相鄰）
- (C) 為了讓欄位變成多維 one-hot
- (D) 為了將它轉成常態分佈

**答案：(B)**
解析：直接用 Label Encoding（0–6）會讓星期日(6)和星期一(0)看起來距離很遠,但實際上它們在週期上相鄰；sin/cos 編碼可保留這種週期性相鄰關係。（chunks line 241–245）

---

### Q25
下列關於**圖像資料增強（Image Augmentation）**的敘述，何者**錯誤**？
- (A) 常見方法包括隨機翻轉、旋轉、裁剪、縮放、色彩變換
- (B) 案例：以影像辨識模型訓練為主的場景（如人臉辨識、醫學影像分析）
- (C) 主要透過產生額外的新樣本或對現有樣本進行變形,增加資料量、改善資料平衡
- (D) 圖像資料增強會**減少**訓練資料量

**答案：(D)**
解析：資料增強的目的就是**增加**資料量、改善資料平衡與提升泛化能力,不可能減少資料量。常見干擾項。（chunks line 247–257）

---

### Q26
下列關於 **SMOTE（Synthetic Minority Oversampling Technique）**的敘述，何者**正確**？
- (A) 屬於**表格式資料增強**方法,**增加稀少樣本**,用於不平衡資料分類問題（如詐欺偵測、疾病診斷）
- (B) 用於圖像資料的隨機翻轉
- (C) 用於同義字替換的文字增強
- (D) 用於對抗訓練 GAN 的判別器

**答案：(A)**
解析：SMOTE = 表格資料的合成少數類過採樣技術,常見於詐欺偵測、疾病診斷等類別嚴重不平衡情境。(B) 是影像增強；(C) 是文字增強；(D) 屬 GAN 架構。（chunks line 271–274）

---

### Q27
下列關於不同資料型態的**資料增強方法**對應，何者**錯誤**？
- (A) 圖像資料 → 隨機翻轉、旋轉、裁剪、縮放、色彩變換
- (B) 文字資料 → 同義字替換、隨機插入、隨機刪除、隨機交換字詞位置
- (C) 時序資料 → 增加噪聲、局部時段調整（Scaling, Jittering）、窗口裁切
- (D) 表格式資料 → 同義字替換與隨機翻轉

**答案：(D)**
解析：(D) 把文字與圖像的方法錯誤套用到表格資料；表格資料增強應使用 SMOTE 之類的合成方法。常見干擾項把方法錯置到資料型態。（chunks line 251–274）

---

### Q28
下列關於「**依任務類型設計特徵**」的敘述，何者**正確**？
- (A) 分類任務偏好具**離散分群能力**的特徵(如類別指標、區間編碼);迴歸任務偏好與**數值趨勢**密切相關的連續特徵
- (B) 分類與迴歸的特徵設計完全相同,無需區分
- (C) 分類任務只能使用連續特徵
- (D) 迴歸任務只能使用類別特徵

**答案：(A)**
解析：分類偏好離散/區間特徵(便於切分群類)；迴歸偏好連續趨勢特徵(便於擬合數值)。常見干擾項以「完全相同」或顛倒適配誘答。（chunks line 280–283）

---

### Q29
下列關於「**依模型性質調整特徵處理**」的敘述，何者**錯誤**？
- (A) **線性模型**需特別注意尺度與共線性
- (B) **樹模型**對類別編碼敏感,避免使用標籤編碼造成誤解
- (C) **距離式模型**（如 KNN）需保證特徵間單位一致性
- (D) 樹模型對特徵尺度極為敏感,必須嚴格進行標準化

**答案：(D)**
解析：樹模型對特徵**尺度不敏感**（分裂以「閾值」進行,與尺度無關）；只有線性模型、神經網路、距離式模型才需要嚴格的尺度處理。常見干擾項。（chunks line 286–289）

---

### Q30
下列關於**時間性與序列關聯**的特徵設計，何者**正確**？
- (A) 只能用單一原始時間戳,不能衍生新特徵
- (B) 可提取**滯後值（lag）、移動平均（rolling mean）** 等序列特徵,並加入時間間隔、事件次數等動態指標
- (C) 時間性特徵僅適用於分類任務
- (D) 序列關聯特徵必然導致過擬合

**答案：(B)**
解析：時間序列特徵工程常見作法 = lag（滯後值）、rolling mean（移動平均）+ 時間間隔、事件次數等動態指標,可顯著提升時序任務模型表現。（chunks line 296–299）

---

## 答案速查表

| Q | 答 | Q | 答 | Q | 答 |
|---|---|---|---|---|---|
| 1 | B | 11 | D | 21 | A |
| 2 | B | 12 | A | 22 | A |
| 3 | B | 13 | B | 23 | B |
| 4 | B | 14 | D | 24 | B |
| 5 | D | 15 | B | 25 | D |
| 6 | C | 16 | A | 26 | A |
| 7 | A | 17 | C | 27 | D |
| 8 | B | 18 | C | 28 | A |
| 9 | D | 19 | D | 29 | D |
| 10 | A | 20 | A | 30 | B |

## 命題分布統計

| 章節 | 題號 | 題數 | 重點 |
|---|---|---:|---|
| 前言與資料清理 | Q1–Q9 | 9 | 資料品質重要性、缺失值處理（刪除/填補/指標編碼）、異常值（統計/視覺化/ML 三類）、重複樣本一致性、模型敏感度（樹 vs 線性/神經網路）、Data Lineage、型別轉換 |
| 特徵選擇與降維 | Q10–Q15 | 6 | 特徵選擇本質、Filter/Wrapper/Embedded 三類、PCA 線性、LDA 監督式 |
| 特徵轉換與標準化 | Q16–Q22 | 7 | Min-Max / Z-score / Robust Scaling、Log / Box-Cox 分佈轉換、Label / One-hot / Target Encoding |
| 資料增強與特徵工程策略 | Q23–Q30 | 8 | 時間結構化拆解、週期性 sin/cos、圖像/文字/時序/表格資料增強、SMOTE、任務類型/模型性質/時間性策略 |
| **合計** | — | **30** | — |

## 易混淆考點清單（找混淆提示詞輸出）

| # | 易混淆對 | 差異 |
|---|---|---|
| 1 | 刪除法 vs 填補法 vs 缺失指標編碼 | 三類缺失值處理策略各有適用情境（Q2/Q3） |
| 2 | 異常值偵測：統計 vs 視覺化 vs ML 方法 | Z-score/IQR vs 箱型圖 vs Isolation Forest/LOF（Q4） |
| 3 | 樹模型 vs 線性/神經網路 對資料品質敏感度 | 樹模型容忍度高；線性/神經網路需嚴格前處理（Q7/Q29） |
| 4 | Filter vs Wrapper vs Embedded 特徵選擇 | Filter 獨立快但無互動；Wrapper 精準但貴；Embedded 內建（Q11/Q12/Q13） |
| 5 | PCA vs LDA vs t-SNE | PCA 非監督線性；LDA 監督線性；t-SNE 非線性視覺化（Q14/Q15） |
| 6 | Min-Max vs Z-score vs Robust Scaling | [0,1] vs μ=0σ=1 vs 中位數+IQR（Q16/Q17/Q18） |
| 7 | Label vs One-hot vs Target Encoding | 有序 vs 無序 vs 高基數+目標關聯（Q20/Q21/Q22） |
| 8 | 圖像 / 文字 / 時序 / 表格資料增強 | 翻轉旋轉 vs 同義詞 vs 噪聲窗口 vs SMOTE（Q25/Q26/Q27） |
| 9 | 特徵選擇 vs 特徵工程 | 選擇 = 從現有挑；工程 = 創造新特徵（Q10） |
| 10 | 線性 vs 樹 vs 距離式模型 對尺度需求 | 線性/距離式需縮放；樹模型不敏感（Q29） |

---

— 命題：Heiter（2026-05-12）
— 對應投影片版本：L23301 章節完整版（涵蓋資料清理、特徵選擇與降維、特徵轉換與標準化、資料增強、特徵工程策略）