L23302 模型選擇與架構設計
2模型選擇的原則與考量因素
5 子小節入口 — 任務/規模/解釋/部署/Bias-Variance
2.0模型選擇(Model Selection)的核心地位
| 面向 | 內容 |
|---|---|
| 定義 | 機器學習建模流程中,直接決定後續結果的關鍵步驟 |
| 4 大決定 | ① 訓練成效 ② 泛化能力 ③ 模型部署後的可用性 ④ 部署後的效益 |
| 4 大兼顧 | ① 資料的特性 ② 任務需求 ③ 模型的解釋性 ④ 運算資源與部署限制 |
2.15 個子小節入口(教材鎖死順序)
| 編號 | 子小節 | 對應本指引 |
|---|---|---|
| (1) | 任務類型與模型特性配對 | 3.(監督式)+ 4.(非監督 + 序列時間序列) |
| (2) | 資料規模與模型選擇 | 5. |
| (3) | 模型解釋性需求 | 6. |
| (4) | 運算資源與實務部署限制 | 7. |
| (5) | 偏差-變異的權衡(Bias-Variance Tradeoff) | 8. |
32.(1)任務類型與模型特性配對 — 監督式
分類任務(Classification) + 迴歸任務(Regression)
3.0配對總原則
3.1分類任務(Classification)
| 面向 | 內容 |
|---|---|
| 目標 | 預測資料所屬的離散類別 |
| 常見情境 | 垃圾郵件偵測 / 疾病診斷 / 客戶流失預測 |
| 常用模型 | 適用情境 |
|---|---|
| 決策樹 / 隨機森林 | 具解釋性,適用於特徵混合且分佈複雜的資料 |
| 支援向量機(SVM) | 適合邊界清晰、高維小樣本的分類問題 |
| 神經網路(Neural Network) | 當特徵具高度非線性或為影像、語音等資料類型,模型預測結果佳 |
3.2迴歸任務(Regression)
| 面向 | 內容 |
|---|---|
| 目標 | 預測一個連續數值輸出 |
| 常見情境 | 房價預測 / 能源消耗預測 / 業績估算 |
| 常用模型 | 適用情境 |
|---|---|
| 線性迴歸(Linear Regression) | 簡單且高解釋性,適合線性趨勢明顯的資料 |
| 決策樹迴歸 / 隨機森林迴歸 | 對於非線性與特徵交互效果有良好處理能力 |
| 神經網路 | 適合處理大規模、高維度或非線性強烈的資料情境 |
42.(1)任務類型與模型特性配對 — 非監督 + 序列時間序列
非監督學習(Unsupervised Learning)+ 序列與時間序列(Sequential / Time-series)
4.1非監督學習任務(Unsupervised Learning)
| 面向 | 內容 |
|---|---|
| 目標 | 從未標註資料中發掘潛在結構或壓縮表示 |
| 子任務 | 目標 | 常用模型 |
|---|---|---|
| 聚類(Clustering) | 將資料自動分組,使群內相似、群間差異大 | K-means(資料呈球狀且群數已知時效果良好) DBSCAN(適合有噪聲或群大小不均的資料) |
| 降維(Dimensionality Reduction) | 將高維資料轉換為低維表示,保留主要資訊結構 | PCA(主成分分析):保留最大變異方向,具解釋性 自編碼器(Autoencoder):適合非線性降維與結構重建需求 |
4.2序列與時間序列任務(Sequential / Time-series)
| 面向 | 內容 |
|---|---|
| 目標 | 根據資料序列預測未來或決策行為 |
| 常見情境 | 股價預測 / 感測器數據監控 / 語音辨識 |
| 常用模型 | 特性 |
|---|---|
| RNN / LSTM / GRU | 適合處理長序列記憶與依賴關係 |
| 時序卷積網路 (Temporal Convolutional Network, TCN) | 對長期依賴具有穩定性 |
| ARIMA 等統計模型 | 適合短期、週期性明顯且資料量不大之應用 |
52.(2)資料規模與模型選擇
小型 / 中型 / 大型 — 表現力、穩定性、訓練效率三者平衡
5.0核心原則
5.1三段資料規模對照
| 資料規模 | 模型策略 | 注意事項 |
|---|---|---|
| 小型資料集 數百至數千筆樣本 | 結構簡單、參數數量少的模型 — 線性迴歸、邏輯迴歸、決策樹、正則化模型(Lasso、Ridge) | 降低過擬合風險;資料前處理與特徵工程重要性提高,需較強先驗假設支撐 |
| 中型資料集 數千至數十萬筆樣本 | 較高表現力的模型 — 隨機森林、梯度提升機(XGBoost、LightGBM);可嘗試模型集成與超參數優化 | 計算資源與訓練時間會成為實務限制因素 |
| 大型資料集 百萬級以上樣本 | 深度神經網路為主,特別在非結構化資料(影像、語音、文字)上 | 對運算能力、分散式架構支援、模型調校效率有更高要求;需具擴展性且配合 GPU / 多機訓練的架構設計 |
62.(3)模型解釋性需求
高解釋 vs 低解釋 — 醫療 / 金融 / 法遵的硬需求
6.0核心定位
6.1高解釋性模型
| 面向 | 內容 |
|---|---|
| 代表模型 | 線性迴歸(Linear Regression) / 邏輯迴歸(Logistic Regression) / 淺層決策樹(Shallow Decision Tree) |
| 特性 | 結構簡單、邏輯可視化;決策過程明確,變數對預測結果的影響可透過係數、分割規則等方式直接解釋 |
| 優點 | 便於使用者進行結果溝通與審查 |
| 應用場域 | 醫療診斷 / 信貸評分 / 法規監管 |
6.2低解釋性模型
| 面向 | 內容 |
|---|---|
| 代表模型 | 隨機森林(Random Forest) / 梯度提升樹(Gradient Boosting Trees) / 深度神經網路(Deep Neural Networks) |
| 特性 | 結構高度非線性且包含大量參數,模型決策過程不易直觀理解 |
| 優點 | 具備高度預測能力(教材原文) |
| 配套技術 | 在醫療、金融、法規敏感等高風險應用場景中,建議搭配模型可解釋性技術使用(見下表) |
6.33 大解釋性技術(教材鎖死英文展開形)
| 縮寫 | 用途 |
|---|---|
| SHAP SHapley Additive exPlanations | 輔助理解模型對特徵的依賴關係與輸出邏輯 |
| LIME Local Interpretable Model-Agnostic Explanations | 局部可解釋、模型無關 |
| 偏依圖 Partial Dependence Plot | 觀察特徵對預測的偏依關係 |
72.(4)運算資源與實務部署限制
資源受限 / 資源充足 / 即時推論 三場景
7.1三大部署場景對照
| 場景 | 適用模型 / 技術 | 關鍵考量 |
|---|---|---|
| 資源受限場景 IoT / 手機 App / 邊緣裝置 | 簡單決策樹 / 邏輯迴歸 / 經壓縮後的小型神經網路;亦可採模型剪枝或量化等技術進行模型瘦身 | 結構簡單、參數少、推論快速 |
| 資源充足場景 雲端部署 / 資料中心 | 高效能深度模型 / 模型集成策略 | 充分發揮硬體計算能力;支援較複雜的資料前處理與後處理流程 |
| 即時推論需求 秒級 / 毫秒級回應 | caching / 模型蒸餾(knowledge distillation) | 金融交易、推薦系統等任務中,須優先考量推論延遲與效能表現 |
82.(5)偏差-變異的權衡(Bias-Variance Tradeoff)
欠擬合 vs 過擬合 — 模型複雜度的核心取捨
8.1模型複雜度對照表(教材原表)
| Model Complexity | Total Error | Variance | Bias² |
|---|---|---|---|
| Low(低複雜度) | High | Low | High |
| Optimum Model Complexity | Low | Low | Low |
| High(高複雜度) | High | High | Low |
8.2偏差(Bias)vs 變異(Variance)定義
| 概念 | 定義 | 後果 |
|---|---|---|
| 偏差(Bias) | 模型對資料結構的擬合能力不足,無法有效捕捉資料中的主要趨勢,導致系統性誤差偏高 | 對應 欠擬合 |
| 變異(Variance) | 模型對訓練資料的細微差異或雜訊過於敏感,導致在不同資料集上的表現差異大 | 泛化能力差 — 對應 過擬合 |
8.3低複雜度 vs 高複雜度模型
| 複雜度 | 偏差 / 變異 | 典型代表 / 注意事項 |
|---|---|---|
| 低複雜度模型 如 線性迴歸 | 偏差較高、變異較低 | 穩定且具解釋性,但無法處理複雜關係;對應欠擬合風險 |
| 高複雜度模型 如 深度神經網路 | 偏差低、變異高 | 可擬合複雜模式,但需更多資料或正則化方法以控制變異;對應過擬合風險 |
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23302 考前複習筆記 · v1.0(2026-05 表格化精簡版)