L23302模型選擇與架構設計

L23302 模型選擇與架構設計

2模型選擇的原則與考量因素

5 子小節入口 — 任務／規模／解釋／部署／Bias-Variance

2.0模型選擇（Model Selection）的核心地位

面向	內容
定義	機器學習建模流程中，直接決定後續結果的關鍵步驟
4 大決定	① 訓練成效 ② 泛化能力 ③ 模型部署後的可用性 ④ 部署後的效益
4 大兼顧	① 資料的特性 ② 任務需求 ③ 模型的解釋性 ④ 運算資源與部署限制

2.15 個子小節入口（教材鎖死順序）

編號	子小節	對應本指引
（1）	任務類型與模型特性配對	3．（監督式）+ 4．（非監督 + 序列時間序列）
（2）	資料規模與模型選擇	5．
（3）	模型解釋性需求	6．
（4）	運算資源與實務部署限制	7．
（5）	偏差-變異的權衡（Bias-Variance Tradeoff）	8．

32.（1）任務類型與模型特性配對 — 監督式

分類任務（Classification） + 迴歸任務（Regression）

3.0配對總原則

3.1分類任務（Classification）

面向	內容
目標	預測資料所屬的離散類別
常見情境	垃圾郵件偵測 / 疾病診斷 / 客戶流失預測

常用模型	適用情境
決策樹 / 隨機森林	具解釋性，適用於特徵混合且分佈複雜的資料
支援向量機（SVM）	適合邊界清晰、高維小樣本的分類問題
神經網路（Neural Network）	當特徵具高度非線性或為影像、語音等資料類型，模型預測結果佳

3.2迴歸任務（Regression）

面向	內容
目標	預測一個連續數值輸出
常見情境	房價預測 / 能源消耗預測 / 業績估算

常用模型	適用情境
線性迴歸（Linear Regression）	簡單且高解釋性，適合線性趨勢明顯的資料
決策樹迴歸 / 隨機森林迴歸	對於非線性與特徵交互效果有良好處理能力
神經網路	適合處理大規模、高維度或非線性強烈的資料情境

42.（1）任務類型與模型特性配對 — 非監督 + 序列時間序列

非監督學習（Unsupervised Learning）+ 序列與時間序列（Sequential / Time-series）

4.1非監督學習任務（Unsupervised Learning）

面向	內容
目標	從未標註資料中發掘潛在結構或壓縮表示

子任務	目標	常用模型
聚類（Clustering）	將資料自動分組，使群內相似、群間差異大	K-means（資料呈球狀且群數已知時效果良好） DBSCAN（適合有噪聲或群大小不均的資料）
降維（Dimensionality Reduction）	將高維資料轉換為低維表示，保留主要資訊結構	PCA（主成分分析）：保留最大變異方向，具解釋性自編碼器（Autoencoder）：適合非線性降維與結構重建需求

4.2序列與時間序列任務（Sequential / Time-series）

面向	內容
目標	根據資料序列預測未來或決策行為
常見情境	股價預測 / 感測器數據監控 / 語音辨識

常用模型	特性
RNN / LSTM / GRU	適合處理長序列記憶與依賴關係
時序卷積網路（Temporal Convolutional Network, TCN）	對長期依賴具有穩定性
ARIMA 等統計模型	適合短期、週期性明顯且資料量不大之應用

52.（2）資料規模與模型選擇

小型 / 中型 / 大型 — 表現力、穩定性、訓練效率三者平衡

5.0核心原則

5.1三段資料規模對照

資料規模	模型策略	注意事項
小型資料集數百至數千筆樣本	結構簡單、參數數量少的模型 — 線性迴歸、邏輯迴歸、決策樹、正則化模型（Lasso、Ridge）	降低過擬合風險；資料前處理與特徵工程重要性提高，需較強先驗假設支撐
中型資料集數千至數十萬筆樣本	較高表現力的模型 — 隨機森林、梯度提升機（XGBoost、LightGBM）；可嘗試模型集成與超參數優化	計算資源與訓練時間會成為實務限制因素
大型資料集百萬級以上樣本	深度神經網路為主，特別在非結構化資料（影像、語音、文字）上	對運算能力、分散式架構支援、模型調校效率有更高要求；需具擴展性且配合 GPU / 多機訓練的架構設計

62.（3）模型解釋性需求

高解釋 vs 低解釋 — 醫療 / 金融 / 法遵的硬需求

6.0核心定位

6.1高解釋性模型

面向	內容
代表模型	線性迴歸（Linear Regression） / 邏輯迴歸（Logistic Regression） / 淺層決策樹（Shallow Decision Tree）
特性	結構簡單、邏輯可視化；決策過程明確，變數對預測結果的影響可透過係數、分割規則等方式直接解釋
優點	便於使用者進行結果溝通與審查
應用場域	醫療診斷 / 信貸評分 / 法規監管

6.2低解釋性模型

面向	內容
代表模型	隨機森林（Random Forest） / 梯度提升樹（Gradient Boosting Trees） / 深度神經網路（Deep Neural Networks）
特性	結構高度非線性且包含大量參數，模型決策過程不易直觀理解
優點	具備高度預測能力（教材原文）
配套技術	在醫療、金融、法規敏感等高風險應用場景中，建議搭配模型可解釋性技術使用（見下表）

6.33 大解釋性技術（教材鎖死英文展開形）

縮寫	用途
SHAP SHapley Additive exPlanations	輔助理解模型對特徵的依賴關係與輸出邏輯
LIME Local Interpretable Model-Agnostic Explanations	局部可解釋、模型無關
偏依圖 Partial Dependence Plot	觀察特徵對預測的偏依關係

72.（4）運算資源與實務部署限制

資源受限 / 資源充足 / 即時推論三場景

7.1三大部署場景對照

場景	適用模型 / 技術	關鍵考量
資源受限場景 IoT / 手機 App / 邊緣裝置	簡單決策樹 / 邏輯迴歸 / 經壓縮後的小型神經網路；亦可採模型剪枝或量化等技術進行模型瘦身	結構簡單、參數少、推論快速
資源充足場景雲端部署 / 資料中心	高效能深度模型 / 模型集成策略	充分發揮硬體計算能力；支援較複雜的資料前處理與後處理流程
即時推論需求秒級 / 毫秒級回應	caching / 模型蒸餾（knowledge distillation）	金融交易、推薦系統等任務中，須優先考量推論延遲與效能表現

82.（5）偏差-變異的權衡（Bias-Variance Tradeoff）

欠擬合 vs 過擬合 — 模型複雜度的核心取捨

8.1模型複雜度對照表（教材原表）

Model Complexity	Total Error	Variance	Bias²
Low（低複雜度）	High	Low	High
Optimum Model Complexity	Low	Low	Low
High（高複雜度）	High	High	Low

8.2偏差（Bias）vs 變異（Variance）定義

概念	定義	後果
偏差（Bias）	模型對資料結構的擬合能力不足，無法有效捕捉資料中的主要趨勢，導致系統性誤差偏高	對應欠擬合
變異（Variance）	模型對訓練資料的細微差異或雜訊過於敏感，導致在不同資料集上的表現差異大	泛化能力差 — 對應過擬合

8.3低複雜度 vs 高複雜度模型

複雜度	偏差 / 變異	典型代表 / 注意事項
低複雜度模型如線性迴歸	偏差較高、變異較低	穩定且具解釋性，但無法處理複雜關係；對應欠擬合風險
高複雜度模型如深度神經網路	偏差低、變異高	可擬合複雜模式，但需更多資料或正則化方法以控制變異；對應過擬合風險

AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23302 考前複習筆記 · v1.0（2026-05 表格化精簡版）