L23203深度學習原理與框架
0%

L23203 深度學習原理與框架

2人工神經元、感知器與激活函數
深度學習最底層的數學模型與「守門員」非線性

2.1人工神經元四要素

要素內容
① 輸入
(x₁, x₂, ..., xₙ)
接收來自其他神經元或外部數據的資訊
② 權重
(w₁, w₂, ..., wₙ)
每個輸入訊號都與一個對應的權重相關聯,權重代表該輸入訊號的重要性
③ 加權求和
Weighted Sum
將所有輸入訊號與其對應的權重相乘並求和,加上偏置項(Bias, b);允許神經元在沒有輸入時也能被激活,或調整激活閾值
④ 激活函數
Activation Function
加權求和結果 Z 輸入到非線性激活函數,產生最終輸出;決定神經元是否「激活」
Z = w₁x₁ + w₂x₂ + ... + wₙxₙ + b = Σᵢ wᵢxᵢ + b   Output = A(Z)

2.2感知器(Perceptron)

面向內容
提出人/年代Frank Rosenblatt1957
定位最簡單、最早的人工神經元模型;可視為人工神經元的特定類型
任務類型二元分類器(將輸入劃分為兩類)
激活函數步階函數(Step Function) — Z ≥ 0 輸出 1,Z < 0 輸出 0(閾值為 0 時)
學習方式迭代調整權重與偏置;預測錯時依錯誤大小與方向微調 → 感知器學習規則
優勢概念簡單,能解決線性可分(Linearly Separable)問題
致命限制無法解決非線性可分問題,XOR(互斥或)是經典反例 → 單個感知器無法構成更複雜模型

2.3激活函數三大功能

功能說明代表函數
① 引入非線性
Introduce Non-linearity
最根本、最重要的作用;若無激活函數或只用線性激活,多層網路 = 單層線性模型,僅能解線性可分問題—(所有非線性函數)
② 決定激活狀態依加權求和結果決定神經元最終輸出;模擬生物神經元在足夠刺激時才「發射」Sigmoid(0~1,激活強度/機率)/ReLU(正值通、負值 0,稀疏激活)
③ 壓縮輸出範圍
Compress Output Range
把輸出壓到特定範圍 → ① 穩定訓練(避免梯度爆炸/消失)② 解釋性(輸出層可解釋為機率)Sigmoid([0, 1])/Tanh([-1, 1])
3前向傳播 + 反向傳播 = 訓練循環
前向做預測,反向調參數 — 深度學習的「學習」本質

3.1前向 vs 反向傳播對照

面向前向傳播 Forward Propagation反向傳播 Backpropagation
目標預測調整參數(權重與偏置)
方向輸入層 → 輸出層輸出層 → 輸入層
運算內容加權求和 + 激活函數,層層計算計算損失函數對每個權重的梯度,反向傳遞修正資訊
核心數學線性代數(矩陣乘法)+ 非線性激活連鎖律(Chain Rule,微積分)
產出預測結果(分類標籤 / 機率 / 連續值)每層權重和偏置的梯度

3.2反向傳播三步驟

步驟做什麼
a. 計算損失損失函數比較預測結果與真實標籤,得出量化誤差(損失值)
b. 計算梯度透過連鎖律(Chain Rule)輸出層反向傳遞到輸入層,計算損失對每個權重和偏置的導數(梯度)
c. 權重更新優化器(如梯度下降法)依預設學習率,沿梯度相反方向(損失下降最快方向)微調權重和偏置

3.3訓練循環(迭代學習)

階段內容
① 前向輸入數據 → 加權求和 + 激活 → 輸出預測
② 計算損失比較預測 vs 真實值 → 量化誤差
③ 反向連鎖律 → 計算所有權重梯度
④ 更新優化器 + 學習率 → 沿梯度相反方向調整參數
⑤ 重複數千甚至數百萬次迭代,直到損失值收斂或達到預設訓練次數
4損失函數、優化器與正則化
量誤差 + 修參數 + 防過擬合 三件套

4.1損失函數選用對照

任務類型損失函數說明
迴歸
(預測連續值)
均方誤差 MSE
Mean Squared Error
計算預測值與真實值之差的平方平均值
平均絕對誤差 MAE
Mean Absolute Error
計算預測值與真實值之差的絕對值平均值,對極端值(離群值)敏感度較低
分類
(預測離散類別)
二元交叉熵
Binary Cross-Entropy
用於判斷是或否的二元分類
類別交叉熵
Categorical Cross-Entropy
用於多種不同類別的多分類問題

4.2優化器與梯度下降

角色功能
損失函數① 評估誤差(量尺)② 指引優化(提供依據)
優化器(Optimizer)調整模型參數(權重和偏置),使損失函數的值達到最小;代表方法為梯度下降法
更新方向沿梯度相反方向 — 也就是損失函數下降最快的方向

4.3過擬合:發生原因與情況特徵

過擬合(Overfitting)說明
定義模型在訓練資料上表現極好,但在未見過的新數據上表現顯著下降
原因 ① 模型過於複雜參數數量過多、網路層次過深 → 模型「記憶」訓練數據中的噪聲與特有模式,而非學習普遍規律
原因 ② 訓練數據不足數據量相對模型複雜度太少 → 無法從足夠多樣的例子中學到通用特徵
原因 ③ 訓練時間過長即使模型和資料都適中,過長訓練也會使模型過度適應訓練數據
情況特徵訓練集 → 損失低、準確率高;驗證/測試集 → 損失高、準確率顯著低於訓練集

4.4五項正則化技術

技術做什麼效果
① L1 正則化
L1 / Lasso Regularization
損失函數加入「權重的絕對值總和促使部分權重縮小為零 → 達到特徵選擇效果
② L2 正則化
L2 / Ridge Regularization
損失函數加入「權重平方和防止權重過大 → 模型更平滑、穩定
③ Elastic Net結合 L1 和 L2 正則化兼具特徵選擇 + 權重平滑,平衡兩種效果
④ Dropout訓練過程中隨機屏蔽部分神經元避免神經元彼此過度依賴,降低過擬合風險
⑤ 早停法
Early Stopping
驗證集損失不再下降時提前停止訓練防止模型在訓練集上過度擬合
5MLP 多層感知器 + CNN 卷積神經網路
結構化資料 vs 影像/空間資料 兩大基礎架構

5.1MLP 核心特徵

面向內容
定位最基礎也是最經典的深度學習模型;前饋(Feedforward)神經網路的典型代表
連接方式全連接(Fully Connected) — 每層神經元都與前一層的所有神經元相連
資訊流單向從輸入層流向輸出層,沒有任何迴圈或反饋
核心結構至少三層:輸入層 → 隱藏層(一個或多個,深度的來源) → 輸出層

5.2MLP 輸出層配置(依任務)

任務神經元數量激活函數輸出
二元分類1 個Sigmoid單一機率值
多類別分類= 類別數量Softmax每個類別的機率分佈(Σpᵢ = 1)
迴歸1 個或多個(依輸出維度)不使用(或線性激活)連續數值

5.3MLP 四大限制

限制說明
對順序/空間不敏感把輸入「攤平」成一維向量處理 → 丟失空間(像素位置)或序列(單詞順序)資訊
參數量多、計算成本高全連接導致權重數急劇增加 → 訓練時間長且易過擬合
易受過擬合影響參數眾多,訓練數據不足或模型過於複雜時很容易過擬合
缺乏可解釋性模型決策過程如「黑箱」,難以直接理解每個權重學到什麼

5.4CNN 四大組件

組件功能關鍵
① 卷積層
Convolutional Layer
CNN 核心,自動學習並提取輸入數據的局部特徵;卷積核滑動運算卷積核/濾波器(Kernel/Filter)產生特徵映射(Feature Map)權重共享(Weight Sharing)使 CNN 能辨識位置不變特徵
② 激活函數層對特徵映射應用非線性函數最常用 ReLU
③ 池化層
Pooling Layer
縮減特徵映射尺寸(降採樣),減少計算量,保留最重要特徵;增加平移不變性最大池化(Max Pooling)取區域最大值/平均池化(Average Pooling)取平均
④ 全連接層
Dense Layer
把高層次抽象特徵「扁平化」為一維向量,組合特徵進行最終分類/迴歸分類任務後接 Softmax 輸出層

5.5CNN 衍伸模型演進

模型關鍵突破
AlexNet2012 ImageNet ILSVRC 冠軍,現代深度 CNN 的奠基者;引入ReLU 激活、Dropout 正則化、GPU 加速
VGG
Visual Geometry Group
極深且結構簡單,使用多個 3×3 小型卷積核堆疊取代大型卷積核 → 加深網路深度並提升非線性能力
GoogLeNet引入「Inception 模塊」,同一層並行執行不同大小的卷積核和池化操作後拼接 → 有效利用計算資源並捕捉多尺度特徵
ResNet
Residual Network
引入「殘差連接(跳躍連接)」 → 解決深層網路訓練的梯度消失與模型退化問題,使構建數百層神經網路成為可能
DenseNet每層與其所有前面層的特徵映射連接 → 實現特徵極大重用,緩解梯度消失,減少參數
MobileNet / EfficientNet著重模型效率:MobileNet 用深度可分離卷積輕量化;EfficientNet 自動搜索最佳網路縮放比例 → 適合移動設備與資源受限環境
6RNN 遞迴神經網路與序列建模
處理可變長度序列 — NLP / 時序預測 / 語音的核心架構

6.1RNN 核心特性

面向內容
定位專門設計用於處理可變長度序列輸入數據(Sequential Data)的深度學習模型
關鍵差異與 MLP/CNN 等前饋網路不同,RNN 具有內部「記憶」機制,能捕捉時間依賴性與上下文資訊
核心結構神經元之間存在循環連接(Recurrent Connections),允許資訊在網路內部持續流動
運算公式當前時間步輸出 = f(當前輸入 Xₜ + 上一時間步隱藏狀態 Hₜ₋₁);激活函數常用 Tanh 或 ReLU
權重共享處理不同時間步時共享同一套權重 → 能處理任意長度序列(參數不會隨序列長度增加)

6.2BPTT 與長期依賴問題

概念說明
展開視角
Unrolled View
將循環結構在時間維度上「展開」為深層前饋網路,每個時間步對應一個「層」,共享相同權重
BPTT
Backpropagation Through Time
RNN 的反向傳播形式:在時間維度展開後,用連鎖律從最後一個時間步開始,沿時間軸反向傳播梯度,更新共享權重
梯度消失
Vanishing Gradient
長序列反向傳播時,梯度指數級衰減 → 網路難以學遠距離依賴(「記憶」太短)
梯度爆炸
Exploding Gradient
相反地,梯度也可能指數級增長 → 訓練不穩定
訓練速度慢循環結構本質為串行,難以平行化計算

6.3RNN 衍伸模型四大派系

模型關鍵結構解決什麼
LSTM
Long Short-Term Memory
三門控機制:輸入門 Input Gate / 遺忘門 Forget Gate / 輸出門 Output Gate + 獨立的細胞狀態(Cell State)解決梯度消失,能捕捉並記憶長期依賴關係
GRU
Gated Recurrent Unit
LSTM 的簡化版,兩個門:更新門 Update Gate / 重置門 Reset Gate結構更緊湊、計算複雜度與參數較少,性能常與 LSTM 相當
Bi-RNN
Bidirectional RNN
同時訓練正向 + 反向兩個 RNN,將隱藏狀態結合預測時能同時考慮過去和未來上下文;對命名實體辨識等上下文敏感任務有用
Deep RNN堆疊多層 RNN,每層的隱藏狀態作為下一層輸入學習更複雜的時序特徵

6.4RNN 適用情境

領域應用
自然語言處理 NLP機器翻譯、語音辨識、文本生成、情感分析、命名實體辨識(傳統上是 RNN 及其變種的主要應用領域)
語音辨識處理音頻序列和聲學模型
時間序列預測股票價格、天氣預報、傳感器數據、醫療數據趨勢
影片處理動作辨識、影片內容理解
7Transformer 架構與注意力機制
2017 Attention Is All You Need — 顛覆 RNN/LSTM 的序列建模新典範

7.1Transformer 定位與動機

面向內容
提出方/年代Google2017 年論文《Attention Is All You Need
定位完全基於注意力機制(Attention Mechanism)的深度學習模型;捨棄傳統 RNN 的循環結構和 CNN 的卷積結構
設計動機 ①解決 RNN/LSTM 在處理長序列時的長期依賴問題(梯度消失)
設計動機 ②解決 RNN 串行結構的並行化困難 → 提供能並行處理且能處理長距離依賴的方法

7.2Encoder-Decoder 架構

堆疊功能核心組件
編碼器堆疊
Encoder Stack
理解者」/「特徵提取器」 — 將輸入序列每個元素轉換成富含上下文資訊的高維度「上下文表示」多頭自注意力機制
② 前饋網路 FFN
解碼器堆疊
Decoder Stack
接收編碼器的上下文表示 + 已生成的部分目標序列,自迴歸地生成連貫輸出序列帶遮罩的多頭自注意力(不能偷看未來詞)
編碼器-解碼器注意力(關注編碼器輸出)
③ 前饋網路 FFN

7.3注意力機制 QKV

向量角色意義
Query(Q)查詢向量我在找什麼?」「我的興趣是什麼?」
Key(K)鍵向量我能提供什麼?」「我的內容是什麼?」
Value(V)值向量如果我被關注了,我會提供什麼資訊?

7.4四大關鍵組件

組件做什麼為什麼
① 多頭注意力
Multi-Head Attention
並行執行多次(多個「頭」)獨立的自注意力運算,每個頭有自己的 QKV 權重矩陣,學習不同的注意力模式;最後拼接 + 線性轉換捕捉多樣關係,增強表示能力(多視角的上下文表示)
② 位置編碼
Positional Encoding
透過正弦/餘弦函數(sinusoidal / cosine)的位置向量加到原始詞嵌入上Transformer 摒棄循環結構,無法直接感知序列順序 → 需注入位置資訊
③ 前饋網路
Feed-Forward Network
兩個線性層 + 中間 ReLU 激活的全連接網路;對每個位置獨立應用進一步轉換和處理注意力層提取的資訊
④ 殘差連接 + 層歸一化
Residual + LayerNorm
子層輸入直接加到輸出(Output = Input + Sublayer(Input)),再做歸一化殘差緩解梯度消失、允許構建極深網路;LayerNorm 穩定訓練、減少內部協變偏移(ICS);不依賴批次大小適合 NLP

7.5Transformer 衍伸 — 四大預訓練語言模型

模型提出方架構部分核心特色
BERT
Bidirectional Encoder Representations from Transformers
Google編碼器部分雙向上下文預訓練(Masked Language Model + Next Sentence Prediction),擅長語言理解任務
GPT 系列
Generative Pre-trained Transformer
OpenAI解碼器部分單向(自迴歸)預訓練;擅長文本生成,展現驚人的零樣本(Zero-shot)和少樣本(Few-shot)學習能力(GPT-2/3/4/5)
T5
Text-to-Text Transfer Transformer
Google完整 Encoder-Decoder將所有 NLP 任務統一視為「文字到文字」問題(分類/摘要/問答/翻譯皆轉為生成另一文本)→ 通用性強
ViT
Vision Transformer
Transformer將圖像切成固定大小的圖像塊(Patches)當「詞語」直接輸入 Transformer → 證明 Transformer 處理網格狀資料的潛力,挑戰 CNN 在影像任務的主導地位
長序列 Transformer
Longformer / Reformer / Performer
稀疏注意力等解決原始 Transformer 自注意力計算複雜度 O(L²) 的問題,透過稀疏/局部注意力使其能處理數千甚至數萬 tokens

7.6Transformer 四大限制

限制說明
計算複雜度高自注意力的計算複雜度與序列長度平方 O(L²) 成正比 → 處理極長序列時計算量和記憶體消耗巨大
記憶體消耗大需儲存注意力權重矩陣,長序列佔用大量記憶體
數據飢渴大型 Transformer 需要大量標註或未標註資料才能充分發揮效能,否則易過擬合
缺乏內建序列歸納偏置與 RNN 不同,Transformer 需額外引入位置編碼來提供順序資訊
8生成式模型:Autoencoder & GAN
學習數據底層分佈,生成全新樣本

8.1自編碼器(Autoencoder)

面向內容
定位學習輸入數據高效表示(Encoding)非監督式學習模型;透過嘗試重構自身輸入來達到學習目的
① 編碼器(Encoder)將高維度輸入數據編碼為低維度潛在空間向量 → 通常稱為瓶頸層(Bottleneck Layer)
② 解碼器(Decoder)將潛在空間向量解碼回原始輸入數據的維度
訓練目標最小化重構誤差(Reconstruction Error) — 衡量原始輸入與重構輸出的相似度
常用損失函數MSE 用於連續數據;二元交叉熵用於二元數據

8.2自編碼器四大應用

應用說明
① 降維學習數據的低維潛在表示,達到降維與資料壓縮效果
② 特徵學習潛在表示可作為原始資料的抽象特徵 → 作為無監督預訓練,為後續分類/聚類提供特徵工程
③ 數據去噪去噪自編碼器:從帶噪聲的輸入中重構出乾淨的數據
④ 異常偵測對正常數據重構誤差小、對異常數據重構誤差大 → 用重構誤差辨識離群值

8.3GAN 生成對抗網路

面向內容
核心機制兩個神經網路的「對抗」過程 — 在「零和博弈(Zero-Sum Game)」中訓練至平衡
① 生成器
Generator
輸入:隨機噪聲向量(通常從高斯分佈採樣)
功能:把隨機噪音轉換成看起來像真實數據的樣本 → 試圖「欺騙判別器
② 判別器
Discriminator
輸入:真實訓練數據樣本 + 生成器生成的假樣本
功能:二元分類器,目標是準確區分「真實」vs「生成」
訓練終態達到「納什均衡(Nash Equilibrium)」 — 生成器生成的數據高度逼真,判別器幾乎無法區分

8.4GAN 訓練流程(迭代)

階段做什麼
① 訓練判別器最大化區分真實與生成資料的能力 → 對真實數據給高分(≈1)、對生成數據給低分(≈0)
② 訓練生成器判別器參數固定,生成器試圖最小化判別器將其輸出辨識為假的能力 → 讓判別器對假數據也給高分(≈1)
③ 重複不斷重複直到達到納什均衡

8.5Autoencoder vs GAN 對照

面向AutoencoderGAN
核心結構Encoder + Bottleneck + DecoderGenerator vs Discriminator
學習方式非監督式 — 最小化重構誤差對抗式 — 零和博弈,達納什均衡
主要用途降維、特徵學習、去噪、異常偵測生成高品質新樣本、跨模態生成、風格遷移、超解析度、圖像上色
限制重構而非生成新數據;潛在空間缺乏結構訓練不穩定(模式崩潰);超參數敏感;評估困難
9深度學習主流框架
TensorFlow + Keras / PyTorch / JAX·MXNet·PaddlePaddle

9.1TensorFlow + Keras

框架提出方/年代核心特性
TensorFlowGoogle2015 發布計算圖:早期靜態圖,TF 2.x 轉向即時執行(Eager Execution)
跨平台部署:CPU / GPU / TPU(Google 自研張量處理單元) / 行動裝置(TF Lite)/ 物聯網(TF Lite Micro)/ 網頁(TF.js)
生產級部署TFX(管道管理)+ TensorFlow Serving(模型服務)
Keras高階 APITF 2.0 起完全整合為 tf.keras(TensorFlow 官方高階 API)
極簡主義(最少代碼建構模型)② 模組化(自由組合層/激活/優化器)③ 易於原型開發(快速試驗)④ 靈活後端(早期支援 TF/Theano/CNTK)

9.2PyTorch

面向內容
提出方Facebook AI Research(FAIR)
最大特點動態計算圖(Dynamic Computation Graph) — 運算在定義時立即執行,不像早期 TensorFlow 先構建完整圖形再運行
① 即時執行行為更像標準 Python 代碼 → 簡化調試、開發與實驗
② Pythonic 介面API 設計高度貼合 Python 用法
③ 自動微分內建 Autograd 引擎,自動計算梯度(反向傳播必備)
④ 豐富生態系torchvision(視覺)/ torchtext(NLP)/ torchaudio(語音)/ PyTorch Lightning / Hugging Face Transformers
主要應用領域學術研究 + 快速原型開發的首選

9.3其他框架簡介

框架提出方定位
JAXGoogle機器學習轉換(ML Transformations)框架,結合NumPy 易用性 + 自動微分 + GPU/TPU 高效利用;非傳統端到端框架,更像數值計算庫,提供高效能數值運算與函數式程式設計
MXNetApacheAWS 主要支持)靈活高效的深度學習框架;支援多種程式語言綁定;提供混合式程式設計(兼具符號式和命令式風格)
PaddlePaddle由特定組織支持的開源深度學習框架,在特定領域有其獨特優勢和定位

9.4TensorFlow vs PyTorch 對照

面向TensorFlowPyTorch
提出方Google(2015)Facebook AI Research(FAIR)
計算圖早期靜態圖,TF 2.x 改 Eager Execution動態圖(定義即執行)
API 風格較工程取向,含完整生產生態系Pythonic,貼合 Python 習慣
主戰場業界 + 學術;生產級部署(TFX/Serving/Lite)學術研究 + 快速原型開發
高階 APItf.keras(TF 2.0 起整合)PyTorch Lightning(社群)
硬體CPU / GPU / TPU / 行動 / 物聯網 / 網頁CPU / GPU
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23203 深度學習原理與框架 · v1.0(2026-05 表格化精簡版)