L23102 線性代數之機器學習基礎應用
2向量與矩陣表示
向量(Vector)與矩陣(Matrix)— 儲存結構+計算單位+訓練流程
2.1向量在機器學習中的角色
| 面向 | 內容 |
|---|---|
| 本質 | 具有方向與大小的數學物件,用於描述單一樣本的特徵組合 |
| 樣本表示 | 一筆 5 維樣本輸入 x = [x₁, x₂, x₃, x₄, x₅]ᵀ |
| 參數向量 | 模型的參數向量 θ = [θ₁, θ₂, …, θ_d],用於計算預測值 ŷ = θᵀx |
| 向量運算 | 用途 | 物理意義 / 對應應用 |
|---|---|---|
| 點積 Dot Product | 評估兩個向量在同一方向上的對應程度,為線性模型預測核心運算 | 物理意義是「投影」與「相似度」 |
| L2 範數 Norm(歐幾里得範數) | 計算向量的「長度」或「大小」 | 正規化、正則化(如 L2 損失)的基礎 |
| 向量加減與線性組合 | 向量間的加法、減法與線性組合 | 計算誤差向量、梯度向量 |
2.2矩陣在機器學習中的應用
| 面向 | 內容 |
|---|---|
| 本質 | 矩陣是多個向量的集合,常用於表示多筆樣本資料、特徵轉換或神經網路中的權重 |
| 特徵矩陣 | X ∈ ℝⁿˣᵈ — n 筆樣本、每筆含 d 個特徵 |
| 權重矩陣 | W ∈ ℝᵈˣᵏ — 多類別分類中,把 d 維輸入特徵映射為 k 維輸出機率分數 |
| 矩陣運算 | 定義 | 典型用途 |
|---|---|---|
| 矩陣乘法 Matrix Multiplication | 兩矩陣相乘 | 模型運算的核心 — 批次預測、權重更新、轉換特徵空間 |
| 轉置 Transpose | 將矩陣的列與行互換 | 維度對齊與內積計算 |
| 矩陣求逆 / 偽逆 Inverse / Pseudo-Inverse | 求 A⁻¹ 或 A⁺ | 用於封閉解的求解(如最小平方解),或在無法反矩陣的情況下近似解決 |
2.3矩陣在 ML 中三個具體應用
| 應用 | 關鍵式 / 描述 |
|---|---|
| ① 線性迴歸 | 預測值 ŷ = Xβ,並以矩陣形式進行損失函數與導數運算 |
| ② 神經網路前向傳播 | 層與層之間本質為矩陣與向量的乘法:z⁽ˡ⁾ = W⁽ˡ⁾ a⁽ˡ⁻¹⁾ + b⁽ˡ⁾ |
| ③ 主成分分析(PCA) | 對特徵矩陣進行協方差計算與矩陣分解,以尋找最具代表性的投影方向 |
3線性變換與特徵空間
四種幾何變換 + 特徵空間重構 + 四種 ML 模型出現形式
3.1向量經矩陣運算的四種幾何意涵
| 幾何效果 | 定義(教材原文) | 關鍵特徵 |
|---|---|---|
| ① 縮放 Scaling | 調整向量在各個方向上的長度,改變其尺度但不改變方向 | 方向不變+長度變 |
| ② 旋轉 Rotation | 改變向量的方向而不改變其長度,常見於正交變換或特徵對齊 | 方向變+長度不變 |
| ③ 剪切 Shearing | 使向量方向在空間中產生傾斜變化,常出現在非對角矩陣的變換中 | 方向變+長度變 |
| ④ 投影 Projection | 將高維向量投射到某個子空間(如主成分空間或分類超平面),保留對任務最有意義的資訊 | 方向變到子空間+長度縮短 |
3.2特徵空間(Feature Space)與三件事
| 面向 | 內容 |
|---|---|
| 特徵空間定義 | 資料中各個特徵所張成的數學空間;每一個軸代表一個特徵維度,每一筆資料可視為空間中的一個點。空間的幾何結構不僅描述資料的分佈狀態,也影響模型如何進行分類、迴歸或聚類等任務 |
| 透過線性變換能做的三件事 | 做什麼 | 對應例子 |
|---|---|---|
| ① 特徵重組 | 將原始特徵做線性組合,產生新的表示 | 主成分分析(PCA) |
| ② 維度轉換 | 將資料從原始高維空間轉換至低維或嵌入空間 | 投影到主成分空間或隱藏層 |
| ③ 方向加權 | 強化模型對於某些方向(變數組合)的敏感性 | — |
3.3線性變換在 ML 模型中的四種出現形式
| 出現形式 | 對應式子 / 描述 | 本質 |
|---|---|---|
| ① 線性迴歸與邏輯迴歸 | y = wᵀx + b | 本質為一維線性投影,將多維特徵向量投射到一條直線上以進行預測 |
| ② 神經網路前向傳播 | z⁽ˡ⁾ = W⁽ˡ⁾ a⁽ˡ⁻¹⁾ + b⁽ˡ⁾ | 將上一層輸出透過線性變換映射至下一層特徵空間,再經過非線性激活 |
| ③ 嵌入層(Embedding Layer) | — | 將離散類別轉為連續空間的向量表示,核心操作為特定矩陣的線性查詢與轉換 |
| ④ 特徵投影與空間壓縮 | LDA(線性判別分析, Linear Discriminant Analysis)/ Autoencoder | 將高維資料重構為低維潛在向量空間 |
4矩陣分解與維度簡化
三大分解(EVD / SVD / NMF)+ PCA / LDA / LSA + 四項學習效率好處
4.1矩陣分解核心概念
| 面向 | 內容 |
|---|---|
| 定義 | 將高維矩陣 A ∈ ℝⁿˣᵐ 拆解為數個較小矩陣的乘積 |
| 子矩陣性質 | 在運算上更具可解性,或在幾何上具有特定意涵 |
| 潛在結構 | 分解後的矩陣可視為資料的潛在結構(如主成分、潛在特徵)的表現,有助於後續的建模與解釋 |
4.2三大矩陣分解方法總覽
| 方法 | 公式 | 適用矩陣 | 關鍵字 |
|---|---|---|---|
| EVD 特徵值分解 Eigenvalue Decomposition | A = QΛQᵀ | 對稱方陣 A ∈ ℝⁿˣⁿ | Q=特徵向量(正交矩陣)/ Λ=特徵值(對角矩陣) |
| SVD 奇異值分解 Singular Value Decomposition | X = UΣVᵀ | 任意實數矩陣 X ∈ ℝᵐˣⁿ(不需為方陣) | U=左奇異向量(樣本方向)/ Σ=奇異值(各主方向重要性)/ V=右奇異向量(特徵方向) |
| NMF 非負矩陣分解 Non-negative Matrix Factorization | X ≈ WH | 非負矩陣 X ≥ 0,且 W ≥ 0、H ≥ 0 | W=基底矩陣(潛在特徵)/ H=組合係數 |
4.3EVD ─ 特徵值分解詳解
| 面向 | 內容 |
|---|---|
| 原理 | 適用於對稱方陣,將 A ∈ ℝⁿˣⁿ 分解為特徵向量與特徵值的組合:A = QΛQᵀ |
| Q | 正交矩陣,由 A 的特徵向量(Eigenvectors)構成 |
| Λ | 對角矩陣,對角元素為特徵值(Eigenvalues) |
| Qᵀ | 表示矩陣 Q 的轉置(行變列、列變行) |
| 幾何意義 | 特徵值分解找出一組能穩定表示資料在空間中「拉伸方向」的基底,並量化每個方向的重要性 |
| EVD 應用 | 做什麼 |
|---|---|
| ① 主成分分析(PCA) | 將資料投影到最大變異方向上,達到降維與資訊保留的平衡 |
| ② 線性判別分析(LDA) | 用於找出最佳分類投影方向,以最大化類別間差異與最小化類別內變異 |
4.4SVD ─ 奇異值分解詳解
| 面向 | 內容 |
|---|---|
| 原理 | 可應用於任意實數矩陣(不需為方陣)的分解方法,將 X ∈ ℝᵐˣⁿ 拆解為三個部分:X = UΣVᵀ |
| U ∈ ℝᵐˣᵐ | 左奇異向量矩陣(對應樣本方向) |
| Σ ∈ ℝᵐˣⁿ | 奇異值對角矩陣(對角線為非負實數,表示各主方向的重要性) |
| V ∈ ℝⁿˣⁿ | 右奇異向量矩陣(對應特徵方向) |
| 幾何意義 | 將原始矩陣轉換為不同空間基底的縮放與旋轉操作,具有極佳的數值穩定性與資訊解構能力 |
| SVD 應用場景 | 做什麼 |
|---|---|
| ① 資料降維 | 保留前 k 個奇異值與對應向量,近似原始資料(用於 PCA 計算) |
| ② 推薦系統 | 分解使用者—項目矩陣,找出潛在偏好向量 |
| ③ 潛在語意分析 LSA Latent Semantic Analysis | 抽取語料中詞與文件間的潛在語意結構 |
| ④ 影像壓縮 | 只保留主成分影像資訊,降低儲存與運算成本 |
4.5NMF ─ 非負矩陣分解詳解
| 面向 | 內容 |
|---|---|
| 原理 | 將非負矩陣 X ∈ ℝᵐˣⁿ(X ≥ 0)分解為兩個非負矩陣乘積:X ≈ WH |
| W ∈ ℝᵐˣᵏ, W ≥ 0 | 基底矩陣(可視為潛在特徵) |
| H ∈ ℝᵏˣⁿ, H ≥ 0 | 各基底的組合係數 |
| 幾何意義 | 將資料視為幾個「可加疊的部件」,提供具備語意解釋力的解構方式,並能自然引入稀疏性 |
| NMF 應用場景 | 做什麼 |
|---|---|
| ① 主題建模(Topic Modeling) | 將文件–詞矩陣分解為主題與詞彙分佈 |
| ② 生物訊號分析 | 如腦波分解、基因表現訊號擷取 |
| ③ 影像分析 | 將影像資料拆解為基本視覺元素 |
| ④ 社群分析 | 萃取潛在社群結構或互動關聯性 |
4.6維度簡化與學習效率的四項好處
| 好處 | 具體效益 |
|---|---|
| ① 提升訓練效率 | 減少模型參數量與計算資源需求、加快訓練時間,特別適用於大型資料集或深度學習模型 |
| ② 穩定模型表現 | 去除雜訊與共線性問題,有助於降低過擬合風險,提升預測準確度 |
| ③ 強化資料解釋性 | 轉換後的特徵常具有明確的幾何或語意意義,更容易與業務需求連結,輔助模型診斷與結果溝通 |
| ④ 利於視覺化與後續分析 | 在維度降低後,可將資料投影至二維或三維空間中,方便進行資料探索、群集判斷與異常偵測等任務 |
5最小平方估計與線性迴歸
OLS 誤差最小化 + 幾何投影觀點 + 四大應用情境
5.1最小平方估計(OLS)核心概念
| 面向 | 內容(教材原文鎖死) |
|---|---|
| 全名(鎖死) | 最小平方估計(Ordinary Least Squares, OLS) — 教材覆寫 TERMS_RULE 不可只寫 least squares |
| 目標 | 以「誤差最小化」為目標的參數估計方法 |
| 做法 | 在進行模型訓練時,比較模型所預測的值與實際觀測值之間的差異,並試圖找出一組參數,使這些差異的平方總和達到最小 |
| 產出 | 提供穩定且具代表性的模型,並具備清楚的幾何與統計意義 |
5.2幾何觀點:線性迴歸=投影
| 面向 | 內容 |
|---|---|
| 本質 | 從幾何角度來看,線性迴歸的本質是一種投影 — 將輸入資料在特徵空間中投影到一個最接近實際結果的平面上 |
| 擬合平面 | 這個平面=模型所學習到的線性關係 |
| 數學保證 | 幾何視角不僅讓線性迴歸「直觀」,同時提供具體的數學保證 |
| 離群點扭曲 | 資料若分佈過於分散或存在離群點,擬合出的平面可能會受到扭曲 — 影響模型準確性 |
5.3四大應用情境
| 應用 | 輸入 → 目標 |
|---|---|
| ① 銷售預測 | 根據廣告支出或市場活動,預測未來營收 |
| ② 醫療風險評估 | 用年齡、血壓等指標,預測患病機率或醫療成本 |
| ③ 房價估值 | 將房屋大小、樓層、地點等作為輸入,預測合理價格 |
| ④ 行為建模 | 描述某一變數如何受多個條件共同影響 |
6跨章符號鎖死與易混點
教材原文鎖死的字母、公式、術語對照
6.1EVD vs SVD vs NMF 三方對照
| 比較項 | EVD | SVD | NMF |
|---|---|---|---|
| 公式 | A = QΛQᵀ | X = UΣVᵀ | X ≈ WH |
| 等號類型 | = 精確 | = 精確 | ≈ 近似 |
| 適用矩陣 | 對稱方陣 | 任意實數矩陣(不需方陣) | 非負矩陣(X ≥ 0) |
| 關鍵字母 | Q(特徵向量)/ Λ(特徵值) | U(樣本方向)/ Σ(重要性)/ V(特徵方向) | W(基底)/ H(組合係數) |
| 代表應用 | PCA / LDA | 降維 / 推薦系統 / LSA / 影像壓縮 | 主題建模 / 生物訊號 / 影像分析 / 社群分析 |
6.2PCA vs LDA 對照
| 比較項 | PCA | LDA |
|---|---|---|
| 全名 | Principal Components Analysis(主成分分析) | Linear Discriminant Analysis(線性判別分析) |
| 類型 | 無監督降維 | 有監督降維(考慮類別標籤) |
| 目標 | 最大化資料變異方向 | 最大化類別間差異+最小化類別內變異 |
| 用途 | 降維與資訊保留的平衡 | 找出最佳分類投影方向 |
| 背後分解 | EVD / SVD | EVD(對稱方陣特徵分解) |
6.3點積 vs L2 範數 vs 線性組合
| 運算 | 幾何意義 | ML 對應 |
|---|---|---|
| 點積 Dot Product | 投影、相似度 | 線性模型預測核心、相似度比對 |
| L2 範數 Norm | 向量長度 | 正規化、正則化(L2 損失) |
| 向量加減 / 線性組合 | 向量的合成 | 誤差向量、梯度向量 |
6.4矩陣求逆 vs 偽逆
| 運算 | 適用條件 | 用途 |
|---|---|---|
| 矩陣求逆 Inverse | 可逆方陣(行列式 ≠ 0) | 封閉解的求解(如最小平方解) |
| 偽逆 Pseudo-Inverse | 無法反矩陣的情況(非方陣 / 奇異) | 近似解決、最小平方解的更通用形式 |
6.5線性變換四種幾何效果速記
| 變換 | 方向 | 長度 | 常見產生情境 |
|---|---|---|---|
| 縮放 Scaling | 不變 | 變 | 對角矩陣 |
| 旋轉 Rotation | 變 | 不變 | 正交變換、特徵對齊 |
| 剪切 Shearing | 變 | 變 | 非對角矩陣 |
| 投影 Projection | 變到子空間 | 縮短 | 主成分空間、分類超平面 |
6.6跨章符號鎖死
| 項目 | 教材鎖死寫法 | 常見誤寫 |
|---|---|---|
| EVD 公式 | A = QΛQᵀ(用 Q) | VΛVᵀ(錯) |
| SVD 公式 | X = UΣVᵀ | UV(漏 Σ,錯) |
| NMF 公式 | X ≈ WH(≈ 而非 =) | X = WH(錯) |
| 預測值 | ŷ(小寫 hat y) | 大寫 Y |
| 線性迴歸矩陣式 | ŷ = Xβ | — |
| 點積英文 | Dot Product | Inner Product(教材覆寫禁止替換) |
| OLS 全名 | 最小平方估計(Ordinary Least Squares, OLS) | 只寫 least squares(錯) |
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23102 考前複習筆記 · v1.0(2026-05 表格化精簡版)