L23101機率/統計之機器學習基礎應用
0%

L23101 機率/統計之機器學習基礎應用

2資料與隨機變數的機率表示
P(Y|X) + 離散型 / 連續型 兩大類分佈

2.0機器學習的機率本質:條件機率分佈

面向內容
核心邏輯「在特定觀察條件下,某結果發生的可能性有多大」— 並非尋求唯一解,而是學習一種條件機率分佈(Conditional Probability Distribution)
數學形式P(Y|X),其中 X = 輸入特徵(Feature)Y = 目標變數(Label)
① 預測導向模型輸出為某結果的機率(如分類機率),而非確定性分類結果
② 不確定性評估機率反映了模型對預測的信心程度,有助於風險控制與決策制定

2.1離散型 vs 連續型機率分佈

比較項離散型(Discrete)連續型(Continuous)
取值特性值是有限或可數,通常為整數值是無限且連續,可為任意實數
典型例子擲骰子(1、2、3、4、5、6)、電商平台每日訂單數(0、1、2…)身高、體重、時間、溫度;病患等待時間 5.3 分鐘或 5.31 分鐘
機率函數機率質量函數 PMF(Probability Mass Function)— 描述每個特定取值的機率機率密度函數 PDF(Probability Density Function)— 描述某取值範圍內的機率
公式形式P(X=1) = 1/6;總和為 1:Σ P(X=xᵢ) = 1P(a ≤ X ≤ b) = ∫ₐᵇ f(x) dx

2.2三種離散型分佈

分佈描述對象典型應用
伯努利
Bernoulli
具有兩種可能結果的事件(成功/失敗、點擊/未點擊)二元分類任務(邏輯迴歸的目標變數假設)
二項
Binomial
n 次獨立試驗中,某事件發生的次數模擬多次伯努利事件的累計行為
泊松
Poisson
固定時間或空間區間中,某事件發生的次數;事件發生彼此獨立、平均發生率為常數稀有事件:單位時間客服來電數量、網頁伺服器請求次數

2.3四種連續型分佈

分佈特徵典型應用
常態
Normal
對稱的鐘型分佈,最常見的連續型分佈誤差建模、參數估計、特徵分數標準化、生成模型
均勻
Uniform
在某個固定區間內,所有數值具有相同的發生機率初始化參數、隨機抽樣
指數
Exponential
描述事件發生之間的間隔時間;特徵是無記憶性(Memoryless) — 未來事件發生與過去時間無關等待時間、生存時間;機器故障時間、電話來電間隔
卡方
Chi-square
描述一組獨立標準常態分佈變數平方和的分佈變異數分析、卡方適合度檢定、列聯表獨立性檢定

2.4機率分佈作為模型先驗假設

模型分佈假設用途
邏輯迴歸目標變數服從伯努利分佈處理二元分類問題
線性迴歸誤差項符合常態分佈推導參數估計與檢定的統計性質
變分自編碼器
Variational Autoencoder(VAE)
潛在變數與觀察變數的分佈型態納入模型架構核心機率分佈成為模型運作本身的一部分,不只是輔助工具
3條件機率與貝氏推論
條件機率公式 + 三大應用 + 貝氏定理四元素

3.1條件機率定義

面向內容
意義在給定條件下估算機率的行為 — 在事件 B 發生的前提下,事件 A 發生的機率
數學定義P(A|B) = P(A∩B) / P(B)
地位機器學習邏輯核心,也構成貝氏推論(Bayesian Inference)的基礎架構

3.2條件機率三大應用

應用場景說明代表模型/案例
① 分類任務中的條件預測學習條件機率 P(Y|X) — 在觀察輸入特徵 X 的情況下,預測 Y 的可能性分佈邏輯迴歸、貝氏分類器皆以此為核心
② 生醫與金融風控的風險預測已知某些檢驗結果或行為模式,估計未來事件發生的可能性罹病風險違約機率
③ 生成模型中的變數關聯建構建構潛在變數與觀察變數間的依存關係變分自編碼器(VAE)隱馬可夫模型(Hidden Markov Model, HMM)

3.3貝氏定理公式

項目內容
地位處理條件推論問題的核心工具,建立在條件機率之上
定義一種利用已知條件更新事件發生機率的方法
公式P(A|B) = [ P(B|A) · P(A) ] / P(B)
意義在事件 B 已發生的情況下,重新評估事件 A 發生機率的方式

3.4貝氏定理四元素

元素中文/英文意義
P(A)先驗機率
Prior Probability
在尚未觀察事件 B 之前,對事件 A 發生的「初始信念」「預設機率」
P(B|A)條件機率/似然
Likelihood
在事件 A 發生的前提下,事件 B 發生的可能性
P(B)邊際機率
Marginal Probability
事件 B 發生的總體機率,亦為所有可能 A 條件下 B 發生機率的加權總和(無論 A 是否發生,B 發生的整體可能性)
P(A|B)後驗機率
Posterior Probability
在觀察到事件 B 之後,根據新資訊更新後,對事件 A 發生機率的重新估計 — 貝氏定理的核心輸出
4假設檢定與統計推論
統計推論 vs 假設檢定 + 五步驟 + α 與 p 值

4.1統計推論定義與分支

項目內容
核心任務利用樣本資料母體參數或模型行為進行估計與判斷,並量化不確定性
用途推斷模型訓練結果是否穩定、資料特徵之間是否存在顯著差異、模型選擇是否具有合理依據
兩大分支① 參數估計(Parameter Estimation) ② 假設檢定(Hypothesis Testing) — 兩者均依賴機率模型作為推論依據

4.2參數估計 vs 假設檢定(5 維對照)

項目參數估計統計假設檢定
目的推測母體參數的「值」或「區間」驗證某個關於母體參數的「主張」是否成立
重點問題這個母體參數大約是多少?
(例如:平均收入是多少?)
我們是否有足夠證據拒絕一個假設?
(例如:新藥是否有效?)
輸出結果提供點估計值(如平均數)與信賴區間(如 95% CI)提供 p 值、檢定統計量,並根據顯著水準決定是否拒絕虛無假設
依據基於樣本資料,計算出母體參數的估計值基於假設前提與樣本結果,進行推論判斷
例子根據樣本估計出平均體重為 68 公斤95% 信賴區間為 [66, 70]假設新運動課程能降低體重,檢定結果 p = 0.03,小於設定的 α = 0.05。因此拒絕虛無零假設,認為有效

4.3假設檢定五步驟

步驟名稱內容
A(起點)設定假設設定虛無假設(或稱零假設)與對立假設
B選檢定方法選擇適當的檢定方法檢定統計量
C決定 α決定顯著水準
D計算 p 值計算檢定統計量p 值
E進行決策比較顯著水準(α)並進行決策

4.4假設檢定的本質

面向內容
定義機率模型為基礎的推論方法
核心目的檢視樣本資料是否提供足夠證據拒絕某一原先的假設

4.5顯著水準 α 與型一錯誤

項目內容
定義在進行假設檢定之前,研究者預先設定的可接受錯誤機率上限
意義虛無假設為真的前提下,仍可能因樣本隨機波動而錯誤地拒絕該假設的機率
對應錯誤類型型一錯誤(Type I Error)發生的機率

4.6p 值與決策原則

項目內容
p 值定義觀察到樣本資料後所計算出的機率,用來衡量資料與虛無假設的相符程度
決策原則(與 P11 一致)p < α拒絕虛無假設p ≥ α不拒絕虛無假設
教材數字範例新運動課程降低體重案例:p = 0.03 < α = 0.05拒絕虛無零假設 → 認為有效
5統計量與機器學習中的應用
期望值 / 變異數·標準差 / 偏態 / 峰度 + 視覺化工具

5.1四大統計量

統計量定義機器學習中的用途
期望值
Expected Value
反映變數的平均趨勢許多模型的預測基準參數估計核心,例如線性迴歸中的截距項
變異數
Variance
標準差
Standard Deviation
衡量資料的離散程度判斷特徵是否需進行標準化處理,避免尺度不一致對模型訓練造成偏誤
偏態
Skewness
判斷分佈是否對稱若偏態過大,常需對變數進行對數轉換Box-Cox 轉換,以改善模型收斂性與預測穩定性
峰度
Kurtosis
觀察資料是否具有尖峰或厚尾可作為偵測異常值密度風險擴散的參考指標

5.2視覺化工具與後續處理

類別項目用途
視覺化工具直方圖(Histogram)觀察分佈型態(對稱/偏態/多峰)
箱型圖(Box Plot)四分位、中位數、極端值
QQ-plot檢查資料是否服從某種分佈(如常態)
後續處理動作分群處理依分佈特性切群
變數轉換對數、Box-Cox、標準化
資料清理處理異常值、缺失值
6跨節整合與易考混淆
教材沒明列、但歷年高頻混淆題型整理

6.1三大公式對照(最容易考混)

公式場景關鍵記憶點
條件機率
P(A|B) = P(A∩B) / P(B)
給定 B 下 A 的機率分母是條件 B 的機率
貝氏定理
P(A|B) = P(B|A)·P(A) / P(B)
用新資料 B 更新對 A 的信念分子有先驗 P(A) × 似然 P(B|A)
PMF 總和 / PDF 積分
Σ P(X=xᵢ) = 1 / P(a≤X≤b) = ∫f(x)dx
離散分佈總機率 / 連續分佈區間機率離散用求和,連續用積分

6.2易混分佈速辨表

關鍵字對應分佈類型
成功/失敗、點擊/未點擊伯努利離散
n 次獨立試驗、累計次數二項離散
固定時間區間、稀有事件、平均發生率泊松離散
鐘型、誤差、特徵標準化常態連續
等機率、初始化參數均勻連續
等待時間、間隔、無記憶性指數連續
平方和、卡方檢定、列聯表卡方連續

6.3假設檢定常見錯誤

錯誤類型正解
「p 值就是虛無假設為真的機率」。p 值是「在虛無假設為真前提下,觀察到目前資料或更極端結果的機率」
「α 是錯誤率」α 是型一錯誤上限(拒絕了不該拒絕的虛無假設的機率)
「p ≥ α 表示虛無假設為真」。p ≥ α 只是沒足夠證據拒絕,不等於虛無假設為真
「拒絕虛無假設 = 對立假設一定對」拒絕只是依機率決策,仍可能犯型一錯誤
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23101 考前複習筆記 · v1.0(2026-05 表格化精簡版)