# L23103 數值優化技術與方法 — 模擬試題 30 題

> 題型：四選一單選題（iPAS AI 規劃師中級 標準題型）
> 教材來源：`chunks/L23103.txt`（每題解析末標 chunks 行號）
> 命題原則：用易混淆概念設計干擾項（同類項換位、屬性錯配、定義 partial swap），對應「找混淆」提示詞。

---

## 第一部分｜前言與章節導覽（Q1）

### Q1
教材指出機器學習的「訓練模型」本質為何？
- (A) 一個資料前處理問題
- (B) 一個數值優化問題（Numerical Optimization Problem），找出一組能讓目標函數達到最小或最大值的參數組合
- (C) 一個機率分佈推論問題，與優化無關
- (D) 一個特徵工程問題，僅需設計適當特徵即可

**答案：(B)**
解析：訓練模型本質就是一個數值優化問題 — 不論是調整線性模型權重、深度神經網路數千萬個連接係數，或強化式學習中尋找最適策略，其核心邏輯皆是「找出一組能讓目標函數（例如損失函數）達到最小或最大值的參數組合」。（chunks line 9）

---

## 第二部分｜最佳化問題的基本結構（Q2–Q9）

### Q2
教材所述目標函數（Objective Function）的別稱**不包含**下列何者？
- (A) 損失函數（Loss Function）
- (B) 成本函數（Cost Function）
- (C) 適應函數（Fitness Function）
- (D) 目標函數（Objective Function）三者皆可指相同概念，無第四別稱

**答案：(C)**
解析：教材明示目標函數「也稱為損失函數或成本函數」，三者為同概念別稱；「適應函數（Fitness Function）」屬於演化演算法範疇，不在本教材列示。（chunks line 21）

---

### Q3
下列關於目標函數依任務類型選擇的配對，何者**錯誤**？
- (A) 迴歸任務 — 均方誤差（MSE，懲罰預測值與實際值的平方差）
- (B) 分類任務 — 交叉熵損失（Cross-Entropy Loss，衡量預測機率分佈與實際標籤分佈間的差距）
- (C) 排序與排名任務 — 對比損失（Contrastive Loss）或排序損失（Ranking Loss）
- (D) 分類任務 — 均方誤差（MSE，最小化預測類別與實際類別的平方差）

**答案：(D)**
解析：分類任務應使用「交叉熵損失」，不是 MSE；MSE 為迴歸任務專用。教材直言「不當選擇損失函數（例如分類問題使用迴歸損失），將導致模型訓練無效，甚至完全無法收斂」。（chunks line 24–35、145）

---

### Q4
教材所述決策變數（Decision Variables）的意涵為何？
- (A) 模型訓練過程中的固定常數，不可調整
- (B) 模型中可調整的數值參數，亦即學習過程中需要被「優化」的對象
- (C) 模型評估階段的測試指標
- (D) 資料前處理階段的清洗規則

**答案：(B)**
解析：決策變數 = 模型中可調整的數值參數，亦即學習過程中需要被「優化」的對象（如線性模型的權重係數與偏差項、神經網路的每層權重與偏差數值）。（chunks line 41）

---

### Q5
下列何者**並非**教材列舉的決策變數形式？
- (A) 線性模型 — 包括權重係數（如迴歸係數）與偏差項
- (B) 神經網路 — 包含每一層神經元之間的權重與偏差數值
- (C) 機率模型 — 貝氏模型中的條件機率表、生成模型中的潛在變數
- (D) 評估模型 — F1 分數、Accuracy 等評估指標

**答案：(D)**
解析：F1、Accuracy 屬於「評估指標」，不是模型的決策變數（被優化的參數）。教材列三類決策變數：線性模型、神經網路、機率模型。（chunks line 43–45）

---

### Q6
下列關於可行域（Feasible Region）的敘述，何者**錯誤**？
- (A) 可行域也稱為參數空間，定義了決策變數的合法範圍
- (B) 「非負條件」常見於非負矩陣分解（NMF），所有參數須為正數
- (C) 「總和約束」例如機率分佈中參數總和需為 1
- (D) 「稀疏性限制」透過增加多數參數的權重，避免欠擬合

**答案：(D)**
解析：「稀疏性限制」是透過限制多數參數為「0」（如 L1 正則化），促進模型簡化與可解釋性；並非「增加權重」。題目刻意反向描述為干擾。（chunks line 51–66）

---

### Q7
教材所述「凸性（Convexity）」對最佳化問題的意涵為何？
- (A) 凸函數從任一初始點開始，只要持續往下降方向走，最終一定能找到全域最佳解；凸問題具有可預期、穩定的求解特性
- (B) 凸函數有多個局部最小值與鞍點，求解過程充滿不確定性
- (C) 凸函數在某些區段不可導，可能造成訓練不穩或收斂困難
- (D) 凸函數總是非凸的，需透過非線性技巧處理

**答案：(A)**
解析：凸函數從任一初始點往下降方向走，最終必達全域最佳解；具可預期、穩定求解特性。線性迴歸、邏輯迴歸等屬於凸問題。「多個局部最小值與鞍點」是非凸問題（如神經網路損失函數）的特性。（chunks line 73–75）

---

### Q8
下列關於「可導性（Differentiability）」與「非凸問題」的敘述，何者**錯誤**？
- (A) 若函數能夠進行微分，便可透過計算「梯度」來獲得下降方向，是大多數優化器（如梯度下降法）能正常運作的前提
- (B) 若函數在某些區段不可導，可能造成訓練不穩或收斂困難
- (C) 神經網路中的損失函數常存在多個局部最小值與鞍點
- (D) 非凸問題完全無法獲得有效解，必須改用凸近似才能訓練

**答案：(D)**
解析：教材明示「非凸問題雖求解充滿不確定性，但若使用適當初始化、動量機制與調整策略，依然能取得效果良好的解」，並非「完全無法獲得有效解」。(A)(B)(C) 皆符合教材敘述。（chunks line 77–86）

---

### Q9
下列何者**為**教材所列「機器學習脈絡中應用」的最佳化問題類型？
- (A) 線性模型訓練 — 問題結構簡單、可解析求解，訓練速度快且具有理論保證
- (B) 深度學習模型 — 屬於大規模凸問題，可直接解析求解
- (C) 生成模型與策略學習 — 完全使用單一固定損失函數，不需搭配啟發式技術
- (D) 線性模型訓練 — 屬於大規模非凸問題，需依賴 SGD、Adam 等近似演算法

**答案：(A)**
解析：線性模型訓練為結構簡單、可解析求解的問題；深度學習屬大規模「非凸問題」（非凸），需依賴 SGD、Adam、RMSprop 等數值演算法逼近；生成模型/策略學習目標複雜，需搭配啟發式搜尋或抽樣估計。題目把 (B)(D) 將線性與深度學習的特性對調。（chunks line 92–102）

---

## 第三部分｜損失函數與學習目標（Q10–Q15）

### Q10
教材所述損失函數（Loss Function）的本質角色為何？
- (A) 連結資料、模型與學習目標之間的橋梁，提供可度量的依據讓演算法知道「預測得好不好」，並根據評價反覆修正參數
- (B) 模型部署階段的監控指標，與訓練過程無關
- (C) 取代梯度的下降方向計算工具
- (D) 用於資料前處理的標準化函數

**答案：(A)**
解析：損失函數是連結資料、模型與學習目標的橋梁，提供可度量依據，讓演算法知道預測好壞、反覆修正參數。教材稱之為學習過程的「導航器」。（chunks line 106、147）

---

### Q11
下列關於損失函數設計意義的敘述，何者**錯誤**？
- (A) 損失函數設計體現學習目標的策略偏好與風險容忍度
- (B) 損失函數決定如何看待不同型態的錯誤（如假陽性與假陰性的權重差異）
- (C) 損失函數影響參數調整的方向與幅度，進而影響整體的收斂行為與學習效率
- (D) 損失函數的選擇與模型效能無關，僅是評估階段的工具

**答案：(D)**
解析：損失函數設計直接「決定模型是否能有效理解任務本質」、「影響整體收斂行為與學習效率」，是學習過程的核心，並非僅是評估工具。（chunks line 110–116）

---

### Q12
下列迴歸任務損失函數與其特性的配對，何者**錯誤**？
- (A) 均方誤差（MSE）— 放大較大誤差的懲罰，適合誤差分佈穩定的情況
- (B) 平均絕對誤差（MAE）— 對極端值較不敏感，適用於含有異常值的資料
- (C) Huber 損失 — 結合 MSE 與 MAE 優點，在穩定性與抗雜訊之間取得平衡
- (D) 平均絕對誤差（MAE）— 放大較大誤差的懲罰，適合誤差分佈穩定的情況

**答案：(D)**
解析：「放大較大誤差懲罰、適合誤差分佈穩定」是 MSE 的特性；MAE 則是「對極端值較不敏感、適用含異常值資料」。題目刻意把 MAE 與 MSE 特性對調為高頻干擾。（chunks line 124–126）

---

### Q13
下列分類任務損失函數與其特性的配對，何者**錯誤**？
- (A) 交叉熵損失（Cross-Entropy Loss）— 衡量預測機率與實際標籤的距離，為多數分類模型的標準選擇
- (B) 對比損失（Contrastive Loss）— 學習樣本對之間的相似度關係，常用於人臉辨識、語意匹配
- (C) Focal Loss — 強化對難分類樣本的學習，特別適合處理資料不平衡問題
- (D) 交叉熵損失（Cross-Entropy Loss）— 強化對難分類樣本的學習，特別適合處理資料不平衡問題

**答案：(D)**
解析：「強化對難分類樣本的學習、處理資料不平衡」是 Focal Loss 的特性；交叉熵則是衡量機率分佈差距、為多數分類模型標準選擇。（chunks line 130–132）

---

### Q14
下列何者**並非**教材所列的損失函數類別？
- (A) 排序損失（Ranking Loss）— 關注資料間的相對順序，常見於搜尋引擎與推薦系統
- (B) 重建損失（Reconstruction Loss）— 計算輸入與輸出間的相似程度，廣泛應用於自編碼器與生成模型
- (C) Huber 損失 — 結合 MSE 與 MAE 優點，在穩定性與抗雜訊之間取得平衡
- (D) Adam Loss — 自動調整學習率的損失函數，廣泛用於深度學習

**答案：(D)**
解析：Adam 是「優化演算法」（Adaptive Moment Estimation），不是損失函數；題目刻意把優化器名稱塞入損失函數列。教材損失函數三大類 = 迴歸（MSE/MAE/Huber）、分類（Cross-Entropy/Contrastive/Focal）、排序與重建（Ranking/Reconstruction）。（chunks line 124–137、253）

---

### Q15
教材所述「不當選擇損失函數」可能造成的後果為何？
- (A) 模型訓練略微減速，但仍能正常收斂
- (B) 模型訓練無效，甚至完全無法收斂
- (C) 模型過擬合，但泛化能力仍佳
- (D) 模型自動切換為其他損失函數

**答案：(B)**
解析：教材明指「不當選擇損失函數（例如分類問題使用迴歸損失），將導致模型訓練無效，甚至完全無法收斂」。（chunks line 145）

---

## 第四部分｜常見優化演算法與比較（Q16–Q25）

### Q16
教材所述優化演算法（Optimization Algorithm）的核心職責為何？
- (A) 負責資料前處理與特徵縮放
- (B) 負責判斷每次應該往哪個方向移動、該移動多遠，以逐步接近最佳解
- (C) 負責設計神經網路架構與層數
- (D) 負責評估模型在測試集上的表現

**答案：(B)**
解析：優化演算法負責判斷每次應往哪個方向移動、移動多遠，以逐步接近最佳解。不同演算法在更新方式、計算效率、收斂行為上各有特色。（chunks line 151–153）

---

### Q17
下列關於梯度下降法（Gradient Descent, GD）的敘述，何者**錯誤**？
- (A) 使用整個訓練資料集計算損失函數的梯度，沿梯度方向更新參數
- (B) 更新穩定、能準確反映全體資料的平均方向
- (C) 計算成本高、訓練速度慢
- (D) 每次使用一筆樣本來估算梯度並更新參數，記憶體需求低

**答案：(D)**
解析：「每次使用一筆樣本估算梯度」是隨機梯度下降（SGD）的概念；梯度下降法（GD）是用「整個訓練資料集」計算梯度。題目把 GD 與 SGD 的更新方式對調是高頻干擾。（chunks line 161–177）

---

### Q18
關於隨機梯度下降（Stochastic Gradient Descent, SGD）的特性，下列敘述何者**正確**？
- (A) 更新穩定、能準確反映全體資料平均方向，但計算成本高
- (B) 更新速度快、記憶體需求低，但梯度波動大、收斂不穩定
- (C) 計算速度慢但收斂穩定，適用於小型資料集
- (D) 必須使用整個訓練資料集才能更新一次參數

**答案：(B)**
解析：SGD 每次用一筆樣本估算梯度，更新速度快、記憶體需求低，但梯度波動大、收斂不穩定。適用於大型資料集、線上學習與即時訓練。(A) 是 GD 的特性。（chunks line 173–185）

---

### Q19
教材指出深度學習中「最常見的選擇」是哪種優化演算法？
- (A) 梯度下降法（GD）— 使用整個資料集計算梯度
- (B) 隨機梯度下降（SGD）— 每次用一筆樣本估算梯度
- (C) 小批次梯度下降（Mini-batch SGD）— 將資料分成小批，每次用一批資料計算梯度
- (D) 牛頓法（Newton's Method）— 使用二階導數求解

**答案：(C)**
解析：小批次梯度下降（Mini-batch SGD）在更新穩定性與效率之間取得平衡，是「深度學習中最常見的選擇」，能與 GPU 加速高度結合。（chunks line 187–199）

---

### Q20
下列關於動量法（Momentum）的敘述，何者**錯誤**？
- (A) 模仿物理動量，將前幾次梯度的方向累積，幫助模型克服局部震盪
- (B) 能加速收斂並穩定學習過程，特別適合高曲率或非平滑空間
- (C) 適用於深層神經網路訓練、收斂速度要求高的任務
- (D) 主要功能為自動調整每個參數的學習率，特別適合稀疏特徵

**答案：(D)**
解析：「自動調整每個參數學習率、適合稀疏特徵」是 Adagrad 的特性；動量法的核心是「累積前幾次梯度方向，幫助克服局部震盪」。題目刻意把 Momentum 與 Adagrad 特性對調。（chunks line 211–223、225–233）

---

### Q21
下列優化演算法與其核心特性的配對，何者**錯誤**？
- (A) Adagrad — 根據每個參數的歷史梯度大小，自動調整學習率
- (B) RMSprop — 引入滑動平均，修正 Adagrad 學習率過快下降的問題
- (C) Adam — 結合動量與 RMSprop，追蹤梯度的一階與二階動量，自動調整各參數的學習率
- (D) Adagrad — 引入滑動平均，修正 Adam 學習率過快下降的問題

**答案：(D)**
解析：「引入滑動平均、修正過快下降」是 RMSprop 的特性，不是 Adagrad；且 RMSprop 修正的是 Adagrad（而非 Adam）。題目對調兩個演算法與其修正對象。（chunks line 225–247）

---

### Q22
教材指出 Adagrad 的「主要限制」為何？
- (A) 無法處理稀疏特徵
- (B) 學習率會隨時間過度衰減，可能導致收斂停止
- (C) 記憶體需求過高，無法應用於大型資料集
- (D) 完全不收斂，必須改用其他演算法

**答案：(B)**
解析：Adagrad 限制 = 學習率會隨時間過度衰減，可能導致收斂停止。這也是 RMSprop 引入滑動平均要修正的問題。（chunks line 235–237）

---

### Q23
下列關於 RMSprop 的敘述，何者**錯誤**？
- (A) 引入滑動平均，修正 Adagrad 學習率過快下降的問題
- (B) 能穩定訓練過程，特別適合處理非穩定梯度（如 RNN 訓練）
- (C) 應用場景包含語音處理、序列建模等非凸問題
- (D) 結合動量與 RMSprop，追蹤梯度的一階與二階動量

**答案：(D)**
解析：「結合動量與 RMSprop、追蹤一階與二階動量」是 Adam 的定義；RMSprop 本身僅引入滑動平均修正 Adagrad。題目刻意把 Adam 的定義塞到 RMSprop 干擾。（chunks line 239–251、253–257）

---

### Q24
教材所述 Adam（Adaptive Moment Estimation）的核心概念為何？
- (A) 結合動量法與 RMSprop，追蹤梯度的一階與二階動量，自動調整各參數的學習率
- (B) 僅使用一階動量，與 Momentum 完全等價
- (C) 不需要梯度資訊即可更新參數
- (D) 只能應用於分類任務，不適用於迴歸或強化式學習

**答案：(A)**
解析：Adam 結合動量與 RMSprop，追蹤梯度的一階與二階動量，自動調整各參數學習率；訓練快速、收斂穩定，適用於圖像、語言、強化式學習等各類任務，是目前最常用的深度學習優化器之一。（chunks line 253–265）

---

### Q25
下列關於 GD / SGD / Mini-batch SGD 的「適用情境」配對，何者**錯誤**？
- (A) 梯度下降（GD）— 小型資料集、高精度需求、可並行化計算的環境
- (B) 隨機梯度下降（SGD）— 大型資料集、線上學習與即時訓練場景
- (C) 小批次梯度下降（Mini-batch SGD）— 中大型模型訓練，能與 GPU 加速高度結合
- (D) 梯度下降（GD）— 大型資料集、線上學習與即時訓練場景

**答案：(D)**
解析：「大型資料集、線上學習」是 SGD 的適用情境；GD 反而適合「小型資料集、高精度需求」。題目把 GD 與 SGD 適用情境對調。（chunks line 169–185）

---

## 第五部分｜收斂判準與訓練穩定性（Q26–Q30）

### Q26
下列何者**並非**教材所列的「收斂判準（Convergence Criteria）」？
- (A) 損失函數變化趨緩（連續多次迭代中變化幅度極小，低於設定的 ε）
- (B) 驗證集效能不再提升（模型在驗證集上的準確率、F1 分數等指標持續持平甚至下降）
- (C) 梯度趨近零（模型參數的梯度值持續逼近零，表示損失函數已位於平坦區域）
- (D) 訓練樣本數量達到 10,000 筆

**答案：(D)**
解析：教材列四項收斂判準 = 損失函數變化趨緩、驗證集效能不再提升、梯度趨近零、訓練步數或時間達上限；「訓練樣本數量達固定值」不是收斂判準（樣本數於訓練前即固定）。（chunks line 273–293）

---

### Q27
教材指出「驗證集效能不再提升」作為收斂判準的潛在風險為何？
- (A) 模型完全無法訓練
- (B) 此時再繼續訓練反而可能導致過擬合
- (C) 必須立即放棄模型並重新設計
- (D) 模型會自動切換為非監督式學習

**答案：(B)**
解析：當模型在驗證集上的指標持續持平甚至下降時，代表已達泛化能力上限；「此時再繼續訓練反而可能導致過擬合」。（chunks line 281–283）

---

### Q28
下列何者**並非**教材所列導致訓練不穩定的因素？
- (A) 學習率過高 — 更新步伐過大，導致參數在最小值附近來回震盪或完全發散
- (B) 初始權重設置不當 — 可能陷入極端值、鞍點，導致學習無法啟動或卡在局部解
- (C) 損失函數或資料分佈不連續 — 使梯度訊號不穩定，進而影響收斂路徑
- (D) GPU 顯示卡型號過舊 — 直接導致梯度爆炸

**答案：(D)**
解析：教材列四大不穩定因素 = 學習率過高、初始權重設置不當、損失函數/資料分佈不連續、批次大小過小；「GPU 型號」屬硬體問題，不在訓練穩定性的討論範圍。（chunks line 299–315）

---

### Q29
下列穩定訓練策略與其用途的配對，何者**錯誤**？
- (A) 學習率調整（Learning Rate Scheduling）— 隨訓練進行自動調降學習率（如 Step Decay、Cosine Annealing、ReduceLROnPlateau），避免後期更新過大導致震盪
- (B) 提早停止（Early Stopping）— 當驗證集效能在一段時間內未改善（如連續 5~10 次 epoch），即可中止訓練，防止過擬合
- (C) 梯度裁剪（Gradient Clipping）— 限制梯度的最大值，避免發散或數值不穩定，特別適用於 RNN 或深層模型
- (D) 批次正規化（Batch Normalization）— 限制梯度的最大值，避免梯度爆炸，主要用於 RNN

**答案：(D)**
解析：「限制梯度最大值、避免爆炸、主要用於 RNN」是梯度裁剪（Gradient Clipping）的功能；批次正規化（Batch Normalization）是「在每一層中標準化中間輸出，使輸入分佈穩定，提升收斂速度與模型穩定性」。題目刻意把兩種策略功能對調。（chunks line 321–335）

---

### Q30
當深度學習模型在訓練時出現梯度爆炸現象，應優先採用哪種技術加以處理？
- (A) 增大學習率
- (B) 梯度裁剪（Gradient Clipping）
- (C) 減少訓練資料量
- (D) 改用平均絕對誤差（MAE）作為損失函數

**答案：(B)**
解析：梯度爆炸會導致權重變動過大甚至溢出。梯度裁剪能限制梯度的最大值，防止數值爆炸，特別適用於深度神經網路或 RNN 訓練。（chunks line 329–331、445–447）

---

## 答案速查表

| Q | 答 | Q | 答 | Q | 答 |
|---|---|---|---|---|---|
| 1 | B | 11 | D | 21 | D |
| 2 | C | 12 | D | 22 | B |
| 3 | D | 13 | D | 23 | D |
| 4 | B | 14 | D | 24 | A |
| 5 | D | 15 | B | 25 | D |
| 6 | D | 16 | B | 26 | D |
| 7 | A | 17 | D | 27 | B |
| 8 | D | 18 | B | 28 | D |
| 9 | A | 19 | C | 29 | D |
| 10 | A | 20 | D | 30 | B |

## 命題分布統計

| 章節 | 題號範圍 | 題數 | 重點 |
|---|---|---:|---|
| 前言與章節導覽 | Q1 | 1 | 訓練 = 數值優化問題 |
| 最佳化問題的基本結構 | Q2–Q9 | 8 | 目標函數、決策變數、可行域、凸性可導性、ML 脈絡應用 |
| 損失函數與學習目標 | Q10–Q15 | 6 | 損失函數角色、設計意義、迴歸三損失（MSE/MAE/Huber）、分類三損失（CE/Contrastive/Focal）、排序/重建損失 |
| 常見優化演算法與比較 | Q16–Q25 | 10 | GD/SGD/Mini-batch 三基礎、Momentum/Adagrad/RMSprop/Adam 四進階、適用情境 |
| 收斂判準與訓練穩定性 | Q26–Q30 | 5 | 四收斂判準、不穩定因素、四穩定策略、梯度爆炸處理 |
| **合計** | — | **30** | — |

## 易混淆考點清單（找混淆提示詞輸出）

| # | 易混淆對 | 差異 |
|---|---|---|
| 1 | 目標函數別稱 | =損失函數=成本函數（三者同概念）；「適應函數」屬演化演算法（Q2） |
| 2 | MSE vs MAE 特性 | MSE=放大大誤差、適合穩定分佈；MAE=對極端值不敏感、適合含異常值（Q12） |
| 3 | 交叉熵 vs Focal Loss | CE=衡量機率分佈差距、分類標準；Focal=強化難分類樣本、處理不平衡（Q13） |
| 4 | Adam 是否為損失函數 | Adam=優化演算法（Adaptive Moment Estimation），非損失函數（Q14） |
| 5 | GD vs SGD 更新方式 | GD=整個資料集計算梯度；SGD=每次一筆樣本估算梯度（Q17/Q18/Q25） |
| 6 | Mini-batch 的地位 | Mini-batch SGD = 深度學習最常見選擇，與 GPU 加速結合（Q19） |
| 7 | Momentum vs Adagrad 功能 | Momentum=累積前幾次梯度方向克服震盪；Adagrad=依歷史梯度自動調學習率（Q20） |
| 8 | RMSprop 修正對象 vs Adam 結構 | RMSprop=用滑動平均修正 Adagrad；Adam=結合 Momentum + RMSprop 一階+二階動量（Q21/Q23/Q24） |
| 9 | Adagrad 限制 | 學習率隨時間過度衰減，可能導致收斂停止（Q22） |
| 10 | 梯度裁剪 vs 批次正規化 | Gradient Clipping=限制梯度最大值、防爆炸（RNN）；Batch Norm=每層標準化中間輸出、穩定輸入分佈（Q29/Q30） |

---

— 命題：Heiter（2026-05-12）
— 對應章節：L23103 數值優化技術與方法（chunks 共 455 行，命題範圍 line 5–335 教學主文，line 337+ 為原教材模擬考題參照）