L23102線性代數之機器學習基礎應用
0%

L23102 線性代數之機器學習基礎應用

2向量與矩陣表示
向量(Vector)與矩陣(Matrix)— 儲存結構+計算單位+訓練流程

2.1向量在機器學習中的角色

面向內容
本質具有方向與大小的數學物件,用於描述單一樣本的特徵組合
樣本表示一筆 5 維樣本輸入 x = [x₁, x₂, x₃, x₄, x₅]ᵀ
參數向量模型的參數向量 θ = [θ₁, θ₂, …, θ_d],用於計算預測值 ŷ = θᵀx
向量運算用途物理意義 / 對應應用
點積
Dot Product
評估兩個向量在同一方向上的對應程度,為線性模型預測核心運算物理意義是「投影」與「相似度」
L2 範數
Norm(歐幾里得範數)
計算向量的「長度」或「大小」正規化、正則化(如 L2 損失)的基礎
向量加減與線性組合向量間的加法、減法與線性組合計算誤差向量梯度向量

2.2矩陣在機器學習中的應用

面向內容
本質矩陣是多個向量的集合,常用於表示多筆樣本資料、特徵轉換或神經網路中的權重
特徵矩陣X ∈ ℝⁿˣᵈ — n 筆樣本、每筆含 d 個特徵
權重矩陣W ∈ ℝᵈˣᵏ — 多類別分類中,把 d 維輸入特徵映射為 k 維輸出機率分數
矩陣運算定義典型用途
矩陣乘法
Matrix Multiplication
兩矩陣相乘模型運算的核心 — 批次預測、權重更新、轉換特徵空間
轉置
Transpose
將矩陣的列與行互換維度對齊內積計算
矩陣求逆 / 偽逆
Inverse / Pseudo-Inverse
求 A⁻¹ 或 A⁺用於封閉解的求解(如最小平方解),或在無法反矩陣的情況下近似解決

2.3矩陣在 ML 中三個具體應用

應用關鍵式 / 描述
① 線性迴歸預測值 ŷ = Xβ,並以矩陣形式進行損失函數與導數運算
② 神經網路前向傳播層與層之間本質為矩陣與向量的乘法:z⁽ˡ⁾ = W⁽ˡ⁾ a⁽ˡ⁻¹⁾ + b⁽ˡ⁾
③ 主成分分析(PCA)對特徵矩陣進行協方差計算與矩陣分解,以尋找最具代表性的投影方向
3線性變換與特徵空間
四種幾何變換 + 特徵空間重構 + 四種 ML 模型出現形式

3.1向量經矩陣運算的四種幾何意涵

幾何效果定義(教材原文)關鍵特徵
① 縮放
Scaling
調整向量在各個方向上的長度,改變其尺度但不改變方向方向不變+長度變
② 旋轉
Rotation
改變向量的方向而不改變其長度,常見於正交變換或特徵對齊方向變+長度不變
③ 剪切
Shearing
使向量方向在空間中產生傾斜變化,常出現在非對角矩陣的變換中方向變+長度變
④ 投影
Projection
將高維向量投射到某個子空間(如主成分空間分類超平面),保留對任務最有意義的資訊方向變到子空間+長度縮短

3.2特徵空間(Feature Space)與三件事

面向內容
特徵空間定義資料中各個特徵所張成的數學空間;每一個軸代表一個特徵維度每一筆資料可視為空間中的一個點。空間的幾何結構不僅描述資料的分佈狀態,也影響模型如何進行分類、迴歸或聚類等任務
透過線性變換能做的三件事做什麼對應例子
① 特徵重組將原始特徵做線性組合,產生新的表示主成分分析(PCA)
② 維度轉換將資料從原始高維空間轉換至低維或嵌入空間投影到主成分空間隱藏層
③ 方向加權強化模型對於某些方向(變數組合)的敏感性

3.3線性變換在 ML 模型中的四種出現形式

出現形式對應式子 / 描述本質
① 線性迴歸與邏輯迴歸y = wᵀx + b本質為一維線性投影,將多維特徵向量投射到一條直線上以進行預測
② 神經網路前向傳播z⁽ˡ⁾ = W⁽ˡ⁾ a⁽ˡ⁻¹⁾ + b⁽ˡ⁾將上一層輸出透過線性變換映射至下一層特徵空間,再經過非線性激活
③ 嵌入層(Embedding Layer)離散類別轉為連續空間的向量表示,核心操作為特定矩陣的線性查詢與轉換
④ 特徵投影與空間壓縮LDA(線性判別分析, Linear Discriminant Analysis)/ Autoencoder將高維資料重構為低維潛在向量空間
4矩陣分解與維度簡化
三大分解(EVD / SVD / NMF)+ PCA / LDA / LSA + 四項學習效率好處

4.1矩陣分解核心概念

面向內容
定義將高維矩陣 A ∈ ℝⁿˣᵐ 拆解為數個較小矩陣的乘積
子矩陣性質運算上更具可解性,或在幾何上具有特定意涵
潛在結構分解後的矩陣可視為資料的潛在結構(如主成分、潛在特徵)的表現,有助於後續的建模與解釋

4.2三大矩陣分解方法總覽

方法公式適用矩陣關鍵字
EVD
特徵值分解
Eigenvalue Decomposition
A = QΛQᵀ對稱方陣 A ∈ ℝⁿˣⁿQ=特徵向量(正交矩陣)/ Λ=特徵值(對角矩陣)
SVD
奇異值分解
Singular Value Decomposition
X = UΣVᵀ任意實數矩陣 X ∈ ℝᵐˣⁿ(不需為方陣U=左奇異向量(樣本方向)/ Σ=奇異值(各主方向重要性)/ V=右奇異向量(特徵方向)
NMF
非負矩陣分解
Non-negative Matrix Factorization
X ≈ WH非負矩陣 X ≥ 0,且 W ≥ 0、H ≥ 0W=基底矩陣(潛在特徵)/ H=組合係數

4.3EVD ─ 特徵值分解詳解

面向內容
原理適用於對稱方陣,將 A ∈ ℝⁿˣⁿ 分解為特徵向量與特徵值的組合:A = QΛQᵀ
Q正交矩陣,由 A 的特徵向量(Eigenvectors)構成
Λ對角矩陣,對角元素為特徵值(Eigenvalues)
Qᵀ表示矩陣 Q 的轉置(行變列、列變行)
幾何意義特徵值分解找出一組能穩定表示資料在空間中「拉伸方向」的基底,並量化每個方向的重要性
EVD 應用做什麼
① 主成分分析(PCA)將資料投影到最大變異方向上,達到降維與資訊保留的平衡
② 線性判別分析(LDA)用於找出最佳分類投影方向,以最大化類別間差異最小化類別內變異

4.4SVD ─ 奇異值分解詳解

面向內容
原理可應用於任意實數矩陣(不需為方陣)的分解方法,將 X ∈ ℝᵐˣⁿ 拆解為三個部分:X = UΣVᵀ
U ∈ ℝᵐˣᵐ左奇異向量矩陣(對應樣本方向
Σ ∈ ℝᵐˣⁿ奇異值對角矩陣(對角線為非負實數,表示各主方向的重要性
V ∈ ℝⁿˣⁿ右奇異向量矩陣(對應特徵方向
幾何意義將原始矩陣轉換為不同空間基底的縮放與旋轉操作,具有極佳的數值穩定性資訊解構能力
SVD 應用場景做什麼
① 資料降維保留前 k 個奇異值與對應向量,近似原始資料(用於 PCA 計算)
② 推薦系統分解使用者—項目矩陣,找出潛在偏好向量
③ 潛在語意分析 LSA
Latent Semantic Analysis
抽取語料中詞與文件間的潛在語意結構
④ 影像壓縮只保留主成分影像資訊,降低儲存與運算成本

4.5NMF ─ 非負矩陣分解詳解

面向內容
原理非負矩陣 X ∈ ℝᵐˣⁿ(X ≥ 0)分解為兩個非負矩陣乘積:X ≈ WH
W ∈ ℝᵐˣᵏ, W ≥ 0基底矩陣(可視為潛在特徵
H ∈ ℝᵏˣⁿ, H ≥ 0各基底的組合係數
幾何意義將資料視為幾個「可加疊的部件」,提供具備語意解釋力的解構方式,並能自然引入稀疏性
NMF 應用場景做什麼
① 主題建模(Topic Modeling)文件–詞矩陣分解為主題與詞彙分佈
② 生物訊號分析腦波分解基因表現訊號擷取
③ 影像分析將影像資料拆解為基本視覺元素
④ 社群分析萃取潛在社群結構互動關聯性

4.6維度簡化與學習效率的四項好處

好處具體效益
① 提升訓練效率減少模型參數量與計算資源需求加快訓練時間,特別適用於大型資料集或深度學習模型
② 穩定模型表現去除雜訊與共線性問題,有助於降低過擬合風險,提升預測準確度
③ 強化資料解釋性轉換後的特徵常具有明確的幾何或語意意義,更容易與業務需求連結,輔助模型診斷與結果溝通
④ 利於視覺化與後續分析在維度降低後,可將資料投影至二維或三維空間中,方便進行資料探索、群集判斷與異常偵測等任務
5最小平方估計與線性迴歸
OLS 誤差最小化 + 幾何投影觀點 + 四大應用情境

5.1最小平方估計(OLS)核心概念

面向內容(教材原文鎖死)
全名(鎖死)最小平方估計(Ordinary Least Squares, OLS) — 教材覆寫 TERMS_RULE 不可只寫 least squares
目標「誤差最小化」為目標的參數估計方法
做法在進行模型訓練時,比較模型所預測的值與實際觀測值之間的差異,並試圖找出一組參數,使這些差異的平方總和達到最小
產出提供穩定且具代表性的模型,並具備清楚的幾何與統計意義

5.2幾何觀點:線性迴歸=投影

面向內容
本質從幾何角度來看,線性迴歸的本質是一種投影 — 將輸入資料在特徵空間投影到一個最接近實際結果的平面上
擬合平面這個平面=模型所學習到的線性關係
數學保證幾何視角不僅讓線性迴歸「直觀」,同時提供具體的數學保證
離群點扭曲資料若分佈過於分散或存在離群點,擬合出的平面可能會受到扭曲 — 影響模型準確性

5.3四大應用情境

應用輸入 → 目標
① 銷售預測根據廣告支出市場活動,預測未來營收
② 醫療風險評估年齡、血壓等指標,預測患病機率醫療成本
③ 房價估值房屋大小、樓層、地點等作為輸入,預測合理價格
④ 行為建模描述某一變數如何受多個條件共同影響
6跨章符號鎖死與易混點
教材原文鎖死的字母、公式、術語對照

6.1EVD vs SVD vs NMF 三方對照

比較項EVDSVDNMF
公式A = QΛQᵀX = UΣVᵀX ≈ WH
等號類型= 精確= 精確近似
適用矩陣對稱方陣任意實數矩陣(不需方陣)非負矩陣(X ≥ 0)
關鍵字母Q(特徵向量)/ Λ(特徵值)U(樣本方向)/ Σ(重要性)/ V(特徵方向)W(基底)/ H(組合係數)
代表應用PCA / LDA降維 / 推薦系統 / LSA / 影像壓縮主題建模 / 生物訊號 / 影像分析 / 社群分析

6.2PCA vs LDA 對照

比較項PCALDA
全名Principal Components Analysis(主成分分析)Linear Discriminant Analysis(線性判別分析)
類型無監督降維有監督降維(考慮類別標籤)
目標最大化資料變異方向最大化類別間差異+最小化類別內變異
用途降維與資訊保留的平衡找出最佳分類投影方向
背後分解EVD / SVDEVD(對稱方陣特徵分解)

6.3點積 vs L2 範數 vs 線性組合

運算幾何意義ML 對應
點積 Dot Product投影、相似度線性模型預測核心、相似度比對
L2 範數 Norm向量長度正規化、正則化(L2 損失)
向量加減 / 線性組合向量的合成誤差向量梯度向量

6.4矩陣求逆 vs 偽逆

運算適用條件用途
矩陣求逆 Inverse可逆方陣(行列式 ≠ 0)封閉解的求解(如最小平方解)
偽逆 Pseudo-Inverse無法反矩陣的情況(非方陣 / 奇異)近似解決、最小平方解的更通用形式

6.5線性變換四種幾何效果速記

變換方向長度常見產生情境
縮放 Scaling不變對角矩陣
旋轉 Rotation不變正交變換、特徵對齊
剪切 Shearing非對角矩陣
投影 Projection變到子空間縮短主成分空間、分類超平面

6.6跨章符號鎖死

項目教材鎖死寫法常見誤寫
EVD 公式A = QΛQᵀ(用 QVΛVᵀ(錯)
SVD 公式X = UΣVᵀUV(漏 Σ,錯)
NMF 公式X ≈ WH(≈ 而非 =)X = WH(錯)
預測值ŷ(小寫 hat y)大寫 Y
線性迴歸矩陣式ŷ = Xβ
點積英文Dot ProductInner Product(教材覆寫禁止替換)
OLS 全名最小平方估計(Ordinary Least Squares, OLS)只寫 least squares(錯)
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23102 考前複習筆記 · v1.0(2026-05 表格化精簡版)