L23201 機器學習原理與技術
2機器學習基本結構
5 大環節 + 特徵空間 + 假設空間 + 損失函數 + 資料分割
2.0機器學習本質 5 大環節
| 環節 | 內容 |
|---|---|
| ① 任務類型 | 分類 / 迴歸 / 聚類 / 降維 / 序列決策 |
| ② 學習目標 | 模型希望達成什麼 — 預測、分群、最大化長期報酬等 |
| ③ 資料假設 | 資料分佈假設、是否有標籤、是否獨立同分佈 |
| ④ 模型訓練 | 透過資料調整參數,使輸出貼近學習目標 |
| ⑤ 評估過程 | 用訓練集/驗證集/測試集 + 任務對應的評估指標衡量品質 |
2.1輸入資料與特徵空間
| 項目 | 內容 |
|---|---|
| 資料來源 5 類 | 結構化表格 / 文字紀錄 / 影像 / 語音訊號 / 感測器資料 |
| 轉換流程 | 原始資料 → 轉換與前處理 → 模型可接受的數學結構(向量 Vector / 矩陣 Matrix) |
| 特徵空間(Feature Space) | 每筆樣本 = 多維空間中的一個點;幾何分佈特性「密集程度、邊界形狀」直接影響分類、預測或分群 |
| 為何重要 | 適切的特徵表示是建構機器學習模型的重要基礎 |
2.25 種任務目標與標籤型態
| 任務 | 標籤型態 | 說明 / 例 |
|---|---|---|
| 分類 Classification | 離散型類別(0、1 或多類別) | 預測樣本所屬類別 — 垃圾信判別、影像辨識(貓/狗) |
| 迴歸 Regression | 實數連續值 | 預測連續數值 — 房價預測、溫度預測、銷售量預測 |
| 聚類 Clustering | 無標籤 | 根據樣本間相似度進行分群(群內相似、群間差異明顯) |
| 降維 Dimensionality Reduction | 無明確標籤 | 高維 → 較低維度,保留資料結構同時簡化模型計算 |
| 序列決策 Sequential Decision | 連續互動回饋 | 連續互動情境中採取行動,最大化長期報酬(屬強化式範疇) |
2.3模型與假設空間
| 模型類型 | 對資料的假設 |
|---|---|
| 線性模型 | 假設樣本可用線性邊界區分 |
| 決策樹 | 透過一系列條件規則進行分類 |
| 神經網路 | 透過非線性結構學習抽象表示 |
2.43 個常見損失函數
| 損失函數 | 對應任務 | 特性 |
|---|---|---|
| 均方誤差 Mean Squared Error, MSE | 迴歸任務 | 平方放大誤差,對大誤差懲罰較重 |
| 平均絕對誤差 Mean Absolute Error, MAE | 迴歸任務 | 線性懲罰,對異常值較具魯棒性 |
| 交叉熵損失 Cross-Entropy Loss | 分類任務 | 衡量「預測機率分佈」與「實際標籤」的差距 |
2.5資料切三段 + 任務對應指標
| 資料段 | 用途 |
|---|---|
| 訓練集 Training Set | 模型參數的學習 |
| 驗證集 Validation Set | 調整超參數 + 監控過擬合 |
| 測試集 Test Set | 最終評估模型表現 |
| 任務類型 | 評估指標 |
|---|---|
| 分類任務 | 準確率(Accuracy) / 精確率與召回率(Precision/Recall) / F1 分數 |
| 迴歸任務 | 平均絕對誤差(MAE) / 均方誤差(MSE) / 決定係數(R²) |
3監督式學習(Supervised Learning)
標註資料 + 映射函數 + 分類/迴歸 + 4 階段訓練流程
3.0核心定位
| 面向 | 內容 |
|---|---|
| 地位 | 機器學習中最常見且應用最成熟的學習形式 |
| 資料來源 | 標註資料(Labeled Data) — 每筆樣本 = 輸入特徵(Features)+ 目標標籤(Label) |
| 學習任務 | 學一個映射函數,根據輸入特徵預測對應的輸出結果 |
| 學習目標 | 最小化「模型輸出與實際標籤之間的誤差」 + 具備良好的泛化能力 |
3.1分類 vs 迴歸
| 任務 | 標籤特性 | 常見應用 |
|---|---|---|
| 分類 Classification | 離散型類別;輸出各類別預測機率,取最高機率為預測結果 | ① 郵件分類(垃圾信 vs 一般信件) ② 客戶流失預測(流失 vs 留存) ③ 圖像辨識(貓 / 狗 / 其他物件) |
| 迴歸 Regression | 連續數值(實數值) | ① 房價預測 ② 銷售量預測 ③ 使用者滿意度評分(1 至 5 顆星) |
3.2監督式學習 4 階段訓練流程
| 階段 | 做什麼 |
|---|---|
| ① 資料準備與標記 | 蒐集具標籤資料,並進行清理與前處理 |
| ② 模型訓練 | 根據訓練集進行參數調整,最小化損失函數 |
| ③ 驗證與調整 | 用驗證集觀察模型表現,調整模型結構與超參數 |
| ④ 測試與部署 | 於測試集上評估最終效能,進行應用部署 |
3.3典型應用場景
| 應用 | 輸入 → 輸出 |
|---|---|
| 圖像分類 | 影像 → 物件類別 |
| 客戶信用風險評估 | 資料 → 信用等級 |
| 醫療診斷 | 病患資訊 → 疾病類型 |
4非監督式學習(Unsupervised Learning)
無標註資料 + 4 任務 + 內外部評估指標 + 5 應用
4.0核心定位
| 面向 | 內容 |
|---|---|
| 資料條件 | 無標註資料 — 不依賴人工標記的目標輸出 |
| 核心目的 | 從原始資料中發現潛在的結構、模式或分佈特性 |
| 適用情境 | 探索性分析 / 資料壓縮 / 隱含關係挖掘 |
| 輸出 ≠ 預測值 | 輸出三類:① 對樣本的分組、歸類 ② 對高維資料的降維、投影 ③ 對潛藏變數或生成機制的估計 |
4.14 種非監督任務類型
| 任務 | 特色 |
|---|---|
| 聚類 Clustering | 依相似性自動分群;群內樣本彼此相似、群間差異明顯 |
| 降維 Dimensionality Reduction | 高維 → 低維,保留重要結構,便於視覺化或後續建模 |
| 關聯規則學習 Association Rule Learning | 找出項目間的關聯性或共現規律(如「{牛奶, 麵包} → {雞蛋}」) |
| 潛在表示學習 Representation Learning | 學可解釋或有用的資料內部結構;常見於語言模型、影像編碼等深度學習應用 |
4.2訓練流程 3 步
| 步驟 | 內容 |
|---|---|
| ① 資料準備與標準化 | 常需特徵縮放、中心化 |
| ② 模型選擇與超參數設定 | 如聚類數 k |
| ③ 模型擬合與重複迭代 | 許多方法依賴初始條件 |
4.3評估方式(內部 + 外部 + 視覺化)
| 評估類型 | 指標 | 依據 |
|---|---|---|
| 內部評估指標 | Silhouette score(輪廓係數) / Davies-Bouldin(指數) / Reconstruction Error(重建誤差) | 依資料本身結構特徵 |
| 外部評估指標 | Rand Index / Adjusted Mutual Information(AMI) | 若有部分標籤可參考時使用 |
| 視覺化輔助分析 | 降維至 2D/3D 空間進行圖形檢視 | 常見的非監督式理解方式 |
4.45 大應用情境
| 應用 | 領域 |
|---|---|
| ① 客戶分群與行為分析 | 電商、行銷 |
| ② 社群偵測與異常發現 | 社群網路、資安 |
| ③ 影像壓縮與重建 | 自編碼器、壓縮技術 |
| ④ 主題模型與語意分析 | 自然語言處理 |
| ⑤ 特徵工程與前處理 | 資料探索與建模前步驟 |
5強化式學習(Reinforcement Learning, RL)
與環境互動 + MDP 7 要素 + 4 任務分類 + 4 步訓練迴圈
5.0核心定位
| 面向 | 內容 |
|---|---|
| 地位 | 與監督式、非監督式並列為三大核心機器學習範式 |
| 特徵 | 模型透過與環境互動學習決策策略 |
| 目標 | 最大化長期累積報酬(Reward) |
| 應用領域 | 自走車、遊戲 AI、機器人控制、資源分配、推薦系統、金融決策(動態環境) |
5.1MDP 7 要素
| 要素 | 定義 |
|---|---|
| ① 代理人(Agent) | 執行動作並從經驗中學習的人工智慧 |
| ② 環境(Environment) | 代理人互動的外部系統 |
| ③ 狀態(State) | 代理人於某一時刻觀察到的環境資訊 |
| ④ 動作(Action) | 代理人在特定狀態下可採取的行為 |
| ⑤ 報酬(Reward) | 環境對代理人某一行為的回饋,用來指引學習方向 |
| ⑥ 策略(Policy) | 代理人根據當前狀態選擇動作的規則 |
| ⑦ 價值函數(Value Function) | 衡量某一狀態或狀態-動作對的長期獎勵期望值 |
5.2任務類型(依學習方式 4 種 + 依決策空間 2 種)
| 依學習方式分 | 做什麼 |
|---|---|
| 策略學習 Policy Learning | 直接學習最佳策略,例如策略梯度法(Policy Gradient) |
| 價值學習 Value-Based | 學狀態或狀態-動作對的價值函數,如 Q-learning |
| 模型式學習 Model-Based RL | 嘗試學環境轉移與回饋機制,提升策略更新效率 |
| 模型無關學習 Model-Free RL | 無需環境模型,依賴試誤與經驗回放 |
| 依決策空間分 | 適用任務 |
|---|---|
| 離散動作空間 | 分類型選擇 — 遊戲動作、導航決策 |
| 連續動作空間 | 控制類任務 — 機械臂運動、車輛轉向控制 |
5.3訓練流程 4 步迴圈 + 評估指標
| 步驟 | 內容 |
|---|---|
| A | 初始化策略或價值函數 |
| B | 與環境互動並收集經驗 |
| C | 根據報酬更新策略或價值估計 |
| D | 重複試誤學習,逐步提升決策表現 |
| 評估指標 | 說明 |
|---|---|
| 平均累積報酬 Average Reward per Episode | 透過模擬或實際環境測試長期績效的核心指標 |
| 成功率或任務達成率 | 衡量任務是否完成 |
| 策略穩定性與收斂速度 | 看策略是否會抖動 / 多快收斂 |
5.45 大應用情境 + 3 大限制
| 應用 | 子項 |
|---|---|
| ① 遊戲 AI 與對弈系統 | AlphaGo、OpenAI Five、DeepMind Atari |
| ② 自駕車與機器人控制 | 動作序列學習、導航決策、連續控制 |
| ③ 推薦系統與廣告分發 | 即時反饋優化、長期使用者價值最大化 |
| ④ 金融投資與資源配置 | 連續決策、風險控制、強化投資策略 |
| ⑤ 運輸與物流排程 | 多階段決策、最短路徑規劃 |
6易混點辨識與常考陷阱
三範式 / 任務 / 損失 / 指標四組易混表
6.1三大學習範式辨識
| 範式 | 資料條件 | 學習目標 | 常考干擾 |
|---|---|---|---|
| 監督式學習 Supervised | 有標註資料(Labeled Data) | 學輸入特徵 → 目標標籤的映射函數,最小化誤差 | 誤把 Reward 當 Label |
| 非監督式學習 Unsupervised | 無標註資料 | 發現潛在結構、模式或分佈特性 | 誤以為「無標籤」=「無輸出」 |
| 強化式學習 RL | 與環境連續互動產生的 state/action/reward | 最大化長期累積報酬 | 誤把序列決策當分類問題 |
6.2任務分辨易混表
| 易混組 | 差異在哪 | 常見誤解 |
|---|---|---|
| 分類 vs 聚類 | 有標籤「離散類別」 vs 無標籤「依相似度分群」 | 把分群當分類用 |
| 迴歸 vs 分類 | 連續實數 vs 離散類別 | 用 Accuracy 評估迴歸(應該用 MAE/MSE/R²) |
| 降維 vs 聚類 | 低維表示 vs 分群歸類 | 誤以為降維一定產生群標籤 |
| 監督式 vs 強化式 | 靜態標籤誤差最小化 vs 互動回饋與長期報酬 | 誤把 Reward 當 Label |
6.3損失函數 / 評估指標對任務
| 易混組 | 差異 / 對應任務 |
|---|---|
| MSE vs MAE | 都用於迴歸;MSE 對大誤差懲罰較重,MAE 對異常值較具魯棒性 |
| Cross-Entropy vs Accuracy | 訓練用損失函數 vs 分類評估指標;誤把 Accuracy 當可微損失是經典錯 |
| 分類指標 vs 迴歸指標 | Accuracy / Precision/Recall / F1 ↔ MAE / MSE / R²,混用就錯 |
| 內部評估 vs 外部評估 | Silhouette / Davies-Bouldin / Reconstruction Error ↔ Rand Index / AMI;誤以為非監督式無法評估 |
| Training Set vs Validation Set vs Test Set | 學參數 vs 調超參數+監控過擬合 vs 最終評估;禁忌:用測試集調參 |
6.4RL 特有概念易混
| 易混組 | 差異 |
|---|---|
| 策略學習 vs 價值學習 | 直接學最佳策略(Policy Gradient) vs 學狀態/狀態-動作對的價值函數(Q-learning) |
| 模型式 vs 模型無關 | 學環境轉移與回饋機制 vs 不學環境模型、靠試誤與經驗回放 |
| 離散動作空間 vs 連續動作空間 | 依決策空間切(不是依有無標籤切!) — 遊戲動作 vs 機械臂運動 |
| 策略(Policy)vs 價值函數(Value Function) | 選動作的規則 vs 衡量長期獎勵期望值 |
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23201 考前複習筆記 · v1.0(2026-05 表格化精簡版)