L23302模型選擇與架構設計
0%

L23302 模型選擇與架構設計

2模型選擇的原則與考量因素
5 子小節入口 — 任務/規模/解釋/部署/Bias-Variance

2.0模型選擇(Model Selection)的核心地位

面向內容
定義機器學習建模流程中,直接決定後續結果的關鍵步驟
4 大決定訓練成效泛化能力 ③ 模型部署後的可用性 ④ 部署後的效益
4 大兼顧資料的特性任務需求模型的解釋性運算資源與部署限制

2.15 個子小節入口(教材鎖死順序)

編號子小節對應本指引
(1)任務類型與模型特性配對3.(監督式)+ 4.(非監督 + 序列時間序列)
(2)資料規模與模型選擇5.
(3)模型解釋性需求6.
(4)運算資源與實務部署限制7.
(5)偏差-變異的權衡(Bias-Variance Tradeoff)8.
32.(1)任務類型與模型特性配對 — 監督式
分類任務(Classification) + 迴歸任務(Regression)

3.0配對總原則

3.1分類任務(Classification)

面向內容
目標預測資料所屬的離散類別
常見情境垃圾郵件偵測 / 疾病診斷 / 客戶流失預測
常用模型適用情境
決策樹 / 隨機森林解釋性,適用於特徵混合且分佈複雜的資料
支援向量機(SVM)適合邊界清晰高維小樣本的分類問題
神經網路(Neural Network)當特徵具高度非線性或為影像、語音等資料類型,模型預測結果佳

3.2迴歸任務(Regression)

面向內容
目標預測一個連續數值輸出
常見情境房價預測 / 能源消耗預測 / 業績估算
常用模型適用情境
線性迴歸(Linear Regression)簡單且高解釋性,適合線性趨勢明顯的資料
決策樹迴歸 / 隨機森林迴歸對於非線性特徵交互效果有良好處理能力
神經網路適合處理大規模、高維度非線性強烈的資料情境
42.(1)任務類型與模型特性配對 — 非監督 + 序列時間序列
非監督學習(Unsupervised Learning)+ 序列與時間序列(Sequential / Time-series)

4.1非監督學習任務(Unsupervised Learning)

面向內容
目標未標註資料中發掘潛在結構壓縮表示
子任務目標常用模型
聚類(Clustering)將資料自動分組,使群內相似、群間差異大K-means(資料呈球狀且群數已知時效果良好)
DBSCAN(適合有噪聲群大小不均的資料)
降維(Dimensionality Reduction)高維資料轉換為低維表示,保留主要資訊結構PCA(主成分分析):保留最大變異方向,具解釋性
自編碼器(Autoencoder):適合非線性降維結構重建需求

4.2序列與時間序列任務(Sequential / Time-series)

面向內容
目標根據資料序列預測未來或決策行為
常見情境股價預測 / 感測器數據監控 / 語音辨識
常用模型特性
RNN / LSTM / GRU適合處理長序列記憶依賴關係
時序卷積網路
(Temporal Convolutional Network, TCN)
長期依賴具有穩定性
ARIMA 等統計模型適合短期週期性明顯資料量不大之應用
52.(2)資料規模與模型選擇
小型 / 中型 / 大型 — 表現力、穩定性、訓練效率三者平衡

5.0核心原則

5.1三段資料規模對照

資料規模模型策略注意事項
小型資料集
數百至數千筆樣本
結構簡單、參數數量少的模型 — 線性迴歸邏輯迴歸決策樹、正則化模型(Lasso、Ridge降低過擬合風險;資料前處理特徵工程重要性提高,需較強先驗假設支撐
中型資料集
數千至數十萬筆樣本
較高表現力的模型 — 隨機森林梯度提升機(XGBoost、LightGBM);可嘗試模型集成超參數優化計算資源訓練時間會成為實務限制因素
大型資料集
百萬級以上樣本
深度神經網路為主,特別在非結構化資料(影像、語音、文字)上運算能力、分散式架構支援、模型調校效率有更高要求;需具擴展性且配合 GPU / 多機訓練的架構設計
62.(3)模型解釋性需求
高解釋 vs 低解釋 — 醫療 / 金融 / 法遵的硬需求

6.0核心定位

6.1高解釋性模型

面向內容
代表模型線性迴歸(Linear Regression) / 邏輯迴歸(Logistic Regression) / 淺層決策樹(Shallow Decision Tree)
特性結構簡單邏輯可視化;決策過程明確,變數對預測結果的影響可透過係數分割規則等方式直接解釋
優點便於使用者進行結果溝通與審查
應用場域醫療診斷 / 信貸評分 / 法規監管

6.2低解釋性模型

面向內容
代表模型隨機森林(Random Forest) / 梯度提升樹(Gradient Boosting Trees) / 深度神經網路(Deep Neural Networks)
特性結構高度非線性且包含大量參數,模型決策過程不易直觀理解
優點具備高度預測能力(教材原文)
配套技術醫療、金融、法規敏感等高風險應用場景中,建議搭配模型可解釋性技術使用(見下表)

6.33 大解釋性技術(教材鎖死英文展開形)

縮寫用途
SHAP
SHapley Additive exPlanations
輔助理解模型對特徵的依賴關係輸出邏輯
LIME
Local Interpretable Model-Agnostic Explanations
局部可解釋、模型無關
偏依圖
Partial Dependence Plot
觀察特徵對預測的偏依關係
72.(4)運算資源與實務部署限制
資源受限 / 資源充足 / 即時推論 三場景

7.1三大部署場景對照

場景適用模型 / 技術關鍵考量
資源受限場景
IoT / 手機 App / 邊緣裝置
簡單決策樹 / 邏輯迴歸 / 經壓縮後的小型神經網路;亦可採模型剪枝量化等技術進行模型瘦身結構簡單、參數少、推論快速
資源充足場景
雲端部署 / 資料中心
高效能深度模型 / 模型集成策略充分發揮硬體計算能力;支援較複雜的資料前處理與後處理流程
即時推論需求
秒級 / 毫秒級回應
caching / 模型蒸餾(knowledge distillation)金融交易推薦系統等任務中,須優先考量推論延遲與效能表現
82.(5)偏差-變異的權衡(Bias-Variance Tradeoff)
欠擬合 vs 過擬合 — 模型複雜度的核心取捨

8.1模型複雜度對照表(教材原表)

Model ComplexityTotal ErrorVarianceBias²
Low(低複雜度)HighLowHigh
Optimum Model ComplexityLowLowLow
High(高複雜度)HighHighLow

8.2偏差(Bias)vs 變異(Variance)定義

概念定義後果
偏差(Bias)模型對資料結構的擬合能力不足,無法有效捕捉資料中的主要趨勢,導致系統性誤差偏高對應 欠擬合
變異(Variance)模型對訓練資料的細微差異雜訊過於敏感,導致在不同資料集上的表現差異大泛化能力差 — 對應 過擬合

8.3低複雜度 vs 高複雜度模型

複雜度偏差 / 變異典型代表 / 注意事項
低複雜度模型
如 線性迴歸
偏差較高、變異較低穩定且具解釋性,但無法處理複雜關係;對應欠擬合風險
高複雜度模型
如 深度神經網路
偏差低、變異高擬合複雜模式,但需更多資料正則化方法控制變異;對應過擬合風險
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23302 考前複習筆記 · v1.0(2026-05 表格化精簡版)