L23102線性代數之機器學習基礎應用

L23102 線性代數之機器學習基礎應用

2向量與矩陣表示

向量（Vector）與矩陣（Matrix）— 儲存結構＋計算單位＋訓練流程

2.1向量在機器學習中的角色

面向	內容
本質	具有方向與大小的數學物件，用於描述單一樣本的特徵組合
樣本表示	一筆 5 維樣本輸入 `x = [x₁, x₂, x₃, x₄, x₅]ᵀ`
參數向量	模型的參數向量 `θ = [θ₁, θ₂, …, θ_d]`，用於計算預測值 `ŷ = θᵀx`

向量運算	用途	物理意義 / 對應應用
點積 Dot Product	評估兩個向量在同一方向上的對應程度，為線性模型預測核心運算	物理意義是「投影」與「相似度」
L2 範數 Norm（歐幾里得範數）	計算向量的「長度」或「大小」	正規化、正則化（如 L2 損失）的基礎
向量加減與線性組合	向量間的加法、減法與線性組合	計算誤差向量、梯度向量

2.2矩陣在機器學習中的應用

面向	內容
本質	矩陣是多個向量的集合，常用於表示多筆樣本資料、特徵轉換或神經網路中的權重
特徵矩陣	`X ∈ ℝⁿˣᵈ` — n 筆樣本、每筆含 d 個特徵
權重矩陣	`W ∈ ℝᵈˣᵏ` — 多類別分類中，把 d 維輸入特徵映射為 k 維輸出機率分數

矩陣運算	定義	典型用途
矩陣乘法 Matrix Multiplication	兩矩陣相乘	模型運算的核心 — 批次預測、權重更新、轉換特徵空間
轉置 Transpose	將矩陣的列與行互換	維度對齊與內積計算
矩陣求逆 / 偽逆 Inverse / Pseudo-Inverse	求 A⁻¹ 或 A⁺	用於封閉解的求解（如最小平方解），或在無法反矩陣的情況下近似解決

2.3矩陣在 ML 中三個具體應用

應用	關鍵式 / 描述
① 線性迴歸	預測值 `ŷ = Xβ`，並以矩陣形式進行損失函數與導數運算
② 神經網路前向傳播	層與層之間本質為矩陣與向量的乘法：`z⁽ˡ⁾ = W⁽ˡ⁾ a⁽ˡ⁻¹⁾ + b⁽ˡ⁾`
③ 主成分分析（PCA）	對特徵矩陣進行協方差計算與矩陣分解，以尋找最具代表性的投影方向

3線性變換與特徵空間

四種幾何變換 + 特徵空間重構 + 四種 ML 模型出現形式

3.1向量經矩陣運算的四種幾何意涵

幾何效果	定義（教材原文）	關鍵特徵
① 縮放 Scaling	調整向量在各個方向上的長度，改變其尺度但不改變方向	方向不變＋長度變
② 旋轉 Rotation	改變向量的方向而不改變其長度，常見於正交變換或特徵對齊	方向變＋長度不變
③ 剪切 Shearing	使向量方向在空間中產生傾斜變化，常出現在非對角矩陣的變換中	方向變＋長度變
④ 投影 Projection	將高維向量投射到某個子空間（如主成分空間或分類超平面），保留對任務最有意義的資訊	方向變到子空間＋長度縮短

3.2特徵空間（Feature Space）與三件事

面向	內容
特徵空間定義	資料中各個特徵所張成的數學空間；每一個軸代表一個特徵維度，每一筆資料可視為空間中的一個點。空間的幾何結構不僅描述資料的分佈狀態，也影響模型如何進行分類、迴歸或聚類等任務

透過線性變換能做的三件事	做什麼	對應例子
① 特徵重組	將原始特徵做線性組合，產生新的表示	主成分分析（PCA）
② 維度轉換	將資料從原始高維空間轉換至低維或嵌入空間	投影到主成分空間或隱藏層
③ 方向加權	強化模型對於某些方向（變數組合）的敏感性	—

3.3線性變換在 ML 模型中的四種出現形式

出現形式	對應式子 / 描述	本質
① 線性迴歸與邏輯迴歸	`y = wᵀx + b`	本質為一維線性投影，將多維特徵向量投射到一條直線上以進行預測
② 神經網路前向傳播	`z⁽ˡ⁾ = W⁽ˡ⁾ a⁽ˡ⁻¹⁾ + b⁽ˡ⁾`	將上一層輸出透過線性變換映射至下一層特徵空間，再經過非線性激活
③ 嵌入層（Embedding Layer）	—	將離散類別轉為連續空間的向量表示，核心操作為特定矩陣的線性查詢與轉換
④ 特徵投影與空間壓縮	LDA（線性判別分析, Linear Discriminant Analysis）/ Autoencoder	將高維資料重構為低維潛在向量空間

4矩陣分解與維度簡化

三大分解（EVD / SVD / NMF）+ PCA / LDA / LSA + 四項學習效率好處

4.1矩陣分解核心概念

面向	內容
定義	將高維矩陣 `A ∈ ℝⁿˣᵐ` 拆解為數個較小矩陣的乘積
子矩陣性質	在運算上更具可解性，或在幾何上具有特定意涵
潛在結構	分解後的矩陣可視為資料的潛在結構（如主成分、潛在特徵）的表現，有助於後續的建模與解釋

4.2三大矩陣分解方法總覽

方法	公式	適用矩陣	關鍵字
EVD 特徵值分解 Eigenvalue Decomposition	`A = QΛQᵀ`	對稱方陣 A ∈ ℝⁿˣⁿ	Q＝特徵向量（正交矩陣）/ Λ＝特徵值（對角矩陣）
SVD 奇異值分解 Singular Value Decomposition	`X = UΣVᵀ`	任意實數矩陣 X ∈ ℝᵐˣⁿ（不需為方陣）	U＝左奇異向量（樣本方向）/ Σ＝奇異值（各主方向重要性）/ V＝右奇異向量（特徵方向）
NMF 非負矩陣分解 Non-negative Matrix Factorization	`X ≈ WH`	非負矩陣 X ≥ 0，且 W ≥ 0、H ≥ 0	W＝基底矩陣（潛在特徵）/ H＝組合係數

4.3EVD ─ 特徵值分解詳解

面向	內容
原理	適用於對稱方陣，將 `A ∈ ℝⁿˣⁿ` 分解為特徵向量與特徵值的組合：`A = QΛQᵀ`
Q	正交矩陣，由 A 的特徵向量（Eigenvectors）構成
Λ	對角矩陣，對角元素為特徵值（Eigenvalues）
Qᵀ	表示矩陣 Q 的轉置（行變列、列變行）
幾何意義	特徵值分解找出一組能穩定表示資料在空間中「拉伸方向」的基底，並量化每個方向的重要性

EVD 應用	做什麼
① 主成分分析（PCA）	將資料投影到最大變異方向上，達到降維與資訊保留的平衡
② 線性判別分析（LDA）	用於找出最佳分類投影方向，以最大化類別間差異與最小化類別內變異

4.4SVD ─ 奇異值分解詳解

面向	內容
原理	可應用於任意實數矩陣（不需為方陣）的分解方法，將 `X ∈ ℝᵐˣⁿ` 拆解為三個部分：`X = UΣVᵀ`
U ∈ ℝᵐˣᵐ	左奇異向量矩陣（對應樣本方向）
Σ ∈ ℝᵐˣⁿ	奇異值對角矩陣（對角線為非負實數，表示各主方向的重要性）
V ∈ ℝⁿˣⁿ	右奇異向量矩陣（對應特徵方向）
幾何意義	將原始矩陣轉換為不同空間基底的縮放與旋轉操作，具有極佳的數值穩定性與資訊解構能力

SVD 應用場景	做什麼
① 資料降維	保留前 k 個奇異值與對應向量，近似原始資料（用於 PCA 計算）
② 推薦系統	分解使用者—項目矩陣，找出潛在偏好向量
③ 潛在語意分析 LSA Latent Semantic Analysis	抽取語料中詞與文件間的潛在語意結構
④ 影像壓縮	只保留主成分影像資訊，降低儲存與運算成本

4.5NMF ─ 非負矩陣分解詳解

面向	內容
原理	將非負矩陣 X ∈ ℝᵐˣⁿ（X ≥ 0）分解為兩個非負矩陣乘積：`X ≈ WH`
W ∈ ℝᵐˣᵏ, W ≥ 0	基底矩陣（可視為潛在特徵）
H ∈ ℝᵏˣⁿ, H ≥ 0	各基底的組合係數
幾何意義	將資料視為幾個「可加疊的部件」，提供具備語意解釋力的解構方式，並能自然引入稀疏性

NMF 應用場景	做什麼
① 主題建模（Topic Modeling）	將文件–詞矩陣分解為主題與詞彙分佈
② 生物訊號分析	如腦波分解、基因表現訊號擷取
③ 影像分析	將影像資料拆解為基本視覺元素
④ 社群分析	萃取潛在社群結構或互動關聯性

4.6維度簡化與學習效率的四項好處

好處	具體效益
① 提升訓練效率	減少模型參數量與計算資源需求、加快訓練時間，特別適用於大型資料集或深度學習模型
② 穩定模型表現	去除雜訊與共線性問題，有助於降低過擬合風險，提升預測準確度
③ 強化資料解釋性	轉換後的特徵常具有明確的幾何或語意意義，更容易與業務需求連結，輔助模型診斷與結果溝通
④ 利於視覺化與後續分析	在維度降低後，可將資料投影至二維或三維空間中，方便進行資料探索、群集判斷與異常偵測等任務

5最小平方估計與線性迴歸

OLS 誤差最小化 + 幾何投影觀點 + 四大應用情境

5.1最小平方估計（OLS）核心概念

面向	內容（教材原文鎖死）
全名（鎖死）	最小平方估計（Ordinary Least Squares, OLS） — 教材覆寫 TERMS_RULE 不可只寫 least squares
目標	以「誤差最小化」為目標的參數估計方法
做法	在進行模型訓練時，比較模型所預測的值與實際觀測值之間的差異，並試圖找出一組參數，使這些差異的平方總和達到最小
產出	提供穩定且具代表性的模型，並具備清楚的幾何與統計意義

5.2幾何觀點：線性迴歸＝投影

面向	內容
本質	從幾何角度來看，線性迴歸的本質是一種投影 — 將輸入資料在特徵空間中投影到一個最接近實際結果的平面上
擬合平面	這個平面＝模型所學習到的線性關係
數學保證	幾何視角不僅讓線性迴歸「直觀」，同時提供具體的數學保證
離群點扭曲	資料若分佈過於分散或存在離群點，擬合出的平面可能會受到扭曲 — 影響模型準確性

5.3四大應用情境

應用	輸入 → 目標
① 銷售預測	根據廣告支出或市場活動，預測未來營收
② 醫療風險評估	用年齡、血壓等指標，預測患病機率或醫療成本
③ 房價估值	將房屋大小、樓層、地點等作為輸入，預測合理價格
④ 行為建模	描述某一變數如何受多個條件共同影響

6跨章符號鎖死與易混點

教材原文鎖死的字母、公式、術語對照

6.1EVD vs SVD vs NMF 三方對照

比較項	EVD	SVD	NMF
公式	`A = QΛQᵀ`	`X = UΣVᵀ`	`X ≈ WH`
等號類型	＝精確	＝精確	≈ 近似
適用矩陣	對稱方陣	任意實數矩陣（不需方陣）	非負矩陣（X ≥ 0）
關鍵字母	Q（特徵向量）/ Λ（特徵值）	U（樣本方向）/ Σ（重要性）/ V（特徵方向）	W（基底）/ H（組合係數）
代表應用	PCA / LDA	降維 / 推薦系統 / LSA / 影像壓縮	主題建模 / 生物訊號 / 影像分析 / 社群分析

6.2PCA vs LDA 對照

比較項	PCA	LDA
全名	Principal Components Analysis（主成分分析）	Linear Discriminant Analysis（線性判別分析）
類型	無監督降維	有監督降維（考慮類別標籤）
目標	最大化資料變異方向	最大化類別間差異＋最小化類別內變異
用途	降維與資訊保留的平衡	找出最佳分類投影方向
背後分解	EVD / SVD	EVD（對稱方陣特徵分解）

6.3點積 vs L2 範數 vs 線性組合

運算	幾何意義	ML 對應
點積 Dot Product	投影、相似度	線性模型預測核心、相似度比對
L2 範數 Norm	向量長度	正規化、正則化（L2 損失）
向量加減 / 線性組合	向量的合成	誤差向量、梯度向量

6.4矩陣求逆 vs 偽逆

運算	適用條件	用途
矩陣求逆 Inverse	可逆方陣（行列式 ≠ 0）	封閉解的求解（如最小平方解）
偽逆 Pseudo-Inverse	無法反矩陣的情況（非方陣 / 奇異）	近似解決、最小平方解的更通用形式

6.5線性變換四種幾何效果速記

變換	方向	長度	常見產生情境
縮放 Scaling	不變	變	對角矩陣
旋轉 Rotation	變	不變	正交變換、特徵對齊
剪切 Shearing	變	變	非對角矩陣
投影 Projection	變到子空間	縮短	主成分空間、分類超平面

6.6跨章符號鎖死

項目	教材鎖死寫法	常見誤寫
EVD 公式	`A = QΛQᵀ`（用 Q）	VΛVᵀ（錯）
SVD 公式	`X = UΣVᵀ`	UV（漏 Σ，錯）
NMF 公式	`X ≈ WH`（≈ 而非 =）	X = WH（錯）
預測值	`ŷ`（小寫 hat y）	大寫 Y
線性迴歸矩陣式	`ŷ = Xβ`	—
點積英文	Dot Product	Inner Product（教材覆寫禁止替換）
OLS 全名	最小平方估計（Ordinary Least Squares, OLS）	只寫 least squares（錯）

AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23102 考前複習筆記 · v1.0（2026-05 表格化精簡版）