L23203深度學習原理與框架

L23203 深度學習原理與框架

2人工神經元、感知器與激活函數

深度學習最底層的數學模型與「守門員」非線性

2.1人工神經元四要素

要素	內容
① 輸入 (x₁, x₂, ..., xₙ)	接收來自其他神經元或外部數據的資訊
② 權重 (w₁, w₂, ..., wₙ)	每個輸入訊號都與一個對應的權重相關聯，權重代表該輸入訊號的重要性
③ 加權求和 Weighted Sum	將所有輸入訊號與其對應的權重相乘並求和，加上偏置項（Bias, b）；允許神經元在沒有輸入時也能被激活，或調整激活閾值
④ 激活函數 Activation Function	加權求和結果 `Z` 輸入到非線性激活函數，產生最終輸出；決定神經元是否「激活」

Z = w₁x₁ + w₂x₂ + ... + wₙxₙ + b = Σᵢ wᵢxᵢ + b　　　Output = A(Z)

2.2感知器（Perceptron）

面向	內容
提出人/年代	Frank Rosenblatt，1957 年
定位	最簡單、最早的人工神經元模型；可視為人工神經元的特定類型
任務類型	二元分類器（將輸入劃分為兩類）
激活函數	步階函數（Step Function） — Z ≥ 0 輸出 1，Z < 0 輸出 0（閾值為 0 時）
學習方式	迭代調整權重與偏置；預測錯時依錯誤大小與方向微調 → 感知器學習規則
優勢	概念簡單，能解決線性可分（Linearly Separable）問題
致命限制	無法解決非線性可分問題，XOR（互斥或）是經典反例 → 單個感知器無法構成更複雜模型

2.3激活函數三大功能

功能	說明	代表函數
① 引入非線性 Introduce Non-linearity	最根本、最重要的作用；若無激活函數或只用線性激活，多層網路 = 單層線性模型，僅能解線性可分問題	—（所有非線性函數）
② 決定激活狀態	依加權求和結果決定神經元最終輸出；模擬生物神經元在足夠刺激時才「發射」	Sigmoid（0~1，激活強度/機率）／ReLU（正值通、負值 0，稀疏激活）
③ 壓縮輸出範圍 Compress Output Range	把輸出壓到特定範圍 → ① 穩定訓練（避免梯度爆炸/消失）② 解釋性（輸出層可解釋為機率）	Sigmoid（[0, 1]）／Tanh（[-1, 1]）

3前向傳播 + 反向傳播 = 訓練循環

前向做預測，反向調參數 — 深度學習的「學習」本質

3.1前向 vs 反向傳播對照

面向	前向傳播 Forward Propagation	反向傳播 Backpropagation
目標	做預測	調整參數（權重與偏置）
方向	輸入層 → 輸出層	輸出層 → 輸入層
運算內容	加權求和 + 激活函數，層層計算	計算損失函數對每個權重的梯度，反向傳遞修正資訊
核心數學	線性代數（矩陣乘法）+ 非線性激活	連鎖律（Chain Rule，微積分）
產出	預測結果（分類標籤 / 機率 / 連續值）	每層權重和偏置的梯度

3.2反向傳播三步驟

步驟	做什麼
a. 計算損失	用損失函數比較預測結果與真實標籤，得出量化誤差（損失值）
b. 計算梯度	透過連鎖律（Chain Rule）從輸出層反向傳遞到輸入層，計算損失對每個權重和偏置的導數（梯度）
c. 權重更新	優化器（如梯度下降法）依預設學習率，沿梯度相反方向（損失下降最快方向）微調權重和偏置

3.3訓練循環（迭代學習）

階段	內容
① 前向	輸入數據 → 加權求和 + 激活 → 輸出預測
② 計算損失	比較預測 vs 真實值 → 量化誤差
③ 反向	連鎖律 → 計算所有權重梯度
④ 更新	優化器 + 學習率 → 沿梯度相反方向調整參數
⑤ 重複	數千甚至數百萬次迭代，直到損失值收斂或達到預設訓練次數

4損失函數、優化器與正則化

量誤差 + 修參數 + 防過擬合三件套

4.1損失函數選用對照

任務類型	損失函數	說明
迴歸（預測連續值）	均方誤差 MSE Mean Squared Error	計算預測值與真實值之差的平方平均值
迴歸（預測連續值）	平均絕對誤差 MAE Mean Absolute Error	計算預測值與真實值之差的絕對值平均值，對極端值（離群值）敏感度較低
分類（預測離散類別）	二元交叉熵 Binary Cross-Entropy	用於判斷是或否的二元分類
分類（預測離散類別）	類別交叉熵 Categorical Cross-Entropy	用於多種不同類別的多分類問題

4.2優化器與梯度下降

角色	功能
損失函數	① 評估誤差（量尺）② 指引優化（提供依據）
優化器（Optimizer）	調整模型參數（權重和偏置），使損失函數的值達到最小；代表方法為梯度下降法
更新方向	沿梯度相反方向 — 也就是損失函數下降最快的方向

4.3過擬合：發生原因與情況特徵

過擬合（Overfitting）	說明
定義	模型在訓練資料上表現極好，但在未見過的新數據上表現顯著下降
原因 ① 模型過於複雜	參數數量過多、網路層次過深 → 模型「記憶」訓練數據中的噪聲與特有模式，而非學習普遍規律
原因 ② 訓練數據不足	數據量相對模型複雜度太少 → 無法從足夠多樣的例子中學到通用特徵
原因 ③ 訓練時間過長	即使模型和資料都適中，過長訓練也會使模型過度適應訓練數據
情況特徵	訓練集 → 損失低、準確率高；驗證/測試集 → 損失高、準確率顯著低於訓練集

4.4五項正則化技術

技術	做什麼	效果
① L1 正則化 L1 / Lasso Regularization	損失函數加入「權重的絕對值總和」	促使部分權重縮小為零 → 達到特徵選擇效果
② L2 正則化 L2 / Ridge Regularization	損失函數加入「權重平方和」	防止權重過大 → 模型更平滑、穩定
③ Elastic Net	結合 L1 和 L2 正則化	兼具特徵選擇 + 權重平滑，平衡兩種效果
④ Dropout	訓練過程中隨機屏蔽部分神經元	避免神經元彼此過度依賴，降低過擬合風險
⑤ 早停法 Early Stopping	在驗證集損失不再下降時提前停止訓練	防止模型在訓練集上過度擬合

5MLP 多層感知器 + CNN 卷積神經網路

結構化資料 vs 影像／空間資料兩大基礎架構

5.1MLP 核心特徵

面向	內容
定位	最基礎也是最經典的深度學習模型；前饋（Feedforward）神經網路的典型代表
連接方式	全連接（Fully Connected） — 每層神經元都與前一層的所有神經元相連
資訊流	單向從輸入層流向輸出層，沒有任何迴圈或反饋
核心結構	至少三層：輸入層 → 隱藏層（一個或多個，深度的來源） → 輸出層

5.2MLP 輸出層配置（依任務）

任務	神經元數量	激活函數	輸出
二元分類	1 個	Sigmoid	單一機率值
多類別分類	= 類別數量	Softmax	每個類別的機率分佈（Σpᵢ = 1）
迴歸	1 個或多個（依輸出維度）	不使用（或線性激活）	連續數值

5.3MLP 四大限制

限制	說明
對順序/空間不敏感	把輸入「攤平」成一維向量處理 → 丟失空間（像素位置）或序列（單詞順序）資訊
參數量多、計算成本高	全連接導致權重數急劇增加 → 訓練時間長且易過擬合
易受過擬合影響	參數眾多，訓練數據不足或模型過於複雜時很容易過擬合
缺乏可解釋性	模型決策過程如「黑箱」，難以直接理解每個權重學到什麼

5.4CNN 四大組件

組件	功能	關鍵
① 卷積層 Convolutional Layer	CNN 核心，自動學習並提取輸入數據的局部特徵；卷積核滑動運算	卷積核/濾波器（Kernel/Filter）產生特徵映射（Feature Map）；權重共享（Weight Sharing）使 CNN 能辨識位置不變特徵
② 激活函數層	對特徵映射應用非線性函數	最常用 ReLU
③ 池化層 Pooling Layer	縮減特徵映射尺寸（降採樣），減少計算量，保留最重要特徵；增加平移不變性	最大池化（Max Pooling）取區域最大值／平均池化（Average Pooling）取平均
④ 全連接層 Dense Layer	把高層次抽象特徵「扁平化」為一維向量，組合特徵進行最終分類/迴歸	分類任務後接 Softmax 輸出層

5.5CNN 衍伸模型演進

模型	關鍵突破
AlexNet	2012 ImageNet ILSVRC 冠軍，現代深度 CNN 的奠基者；引入ReLU 激活、Dropout 正則化、GPU 加速
VGG Visual Geometry Group	極深且結構簡單，使用多個 3×3 小型卷積核堆疊取代大型卷積核 → 加深網路深度並提升非線性能力
GoogLeNet	引入「Inception 模塊」，同一層並行執行不同大小的卷積核和池化操作後拼接 → 有效利用計算資源並捕捉多尺度特徵
ResNet Residual Network	引入「殘差連接（跳躍連接）」 → 解決深層網路訓練的梯度消失與模型退化問題，使構建數百層神經網路成為可能
DenseNet	每層與其所有前面層的特徵映射連接 → 實現特徵極大重用，緩解梯度消失，減少參數
MobileNet / EfficientNet	著重模型效率：MobileNet 用深度可分離卷積輕量化；EfficientNet 自動搜索最佳網路縮放比例 → 適合移動設備與資源受限環境

6RNN 遞迴神經網路與序列建模

處理可變長度序列 — NLP / 時序預測 / 語音的核心架構

6.1RNN 核心特性

面向	內容
定位	專門設計用於處理可變長度序列輸入數據（Sequential Data）的深度學習模型
關鍵差異	與 MLP/CNN 等前饋網路不同，RNN 具有內部「記憶」機制，能捕捉時間依賴性與上下文資訊
核心結構	神經元之間存在循環連接（Recurrent Connections），允許資訊在網路內部持續流動
運算公式	當前時間步輸出 = f(當前輸入 Xₜ + 上一時間步隱藏狀態 Hₜ₋₁)；激活函數常用 Tanh 或 ReLU
權重共享	處理不同時間步時共享同一套權重 → 能處理任意長度序列（參數不會隨序列長度增加）

6.2BPTT 與長期依賴問題

概念	說明
展開視角 Unrolled View	將循環結構在時間維度上「展開」為深層前饋網路，每個時間步對應一個「層」，共享相同權重
BPTT Backpropagation Through Time	RNN 的反向傳播形式：在時間維度展開後，用連鎖律從最後一個時間步開始，沿時間軸反向傳播梯度，更新共享權重
梯度消失 Vanishing Gradient	長序列反向傳播時，梯度指數級衰減 → 網路難以學遠距離依賴（「記憶」太短）
梯度爆炸 Exploding Gradient	相反地，梯度也可能指數級增長 → 訓練不穩定
訓練速度慢	循環結構本質為串行，難以平行化計算

6.3RNN 衍伸模型四大派系

模型	關鍵結構	解決什麼
LSTM Long Short-Term Memory	三門控機制：輸入門 Input Gate / 遺忘門 Forget Gate / 輸出門 Output Gate + 獨立的細胞狀態（Cell State）	解決梯度消失，能捕捉並記憶長期依賴關係
GRU Gated Recurrent Unit	LSTM 的簡化版，兩個門：更新門 Update Gate / 重置門 Reset Gate	結構更緊湊、計算複雜度與參數較少，性能常與 LSTM 相當
Bi-RNN Bidirectional RNN	同時訓練正向 + 反向兩個 RNN，將隱藏狀態結合	預測時能同時考慮過去和未來上下文；對命名實體辨識等上下文敏感任務有用
Deep RNN	堆疊多層 RNN，每層的隱藏狀態作為下一層輸入	學習更複雜的時序特徵

6.4RNN 適用情境

領域	應用
自然語言處理 NLP	機器翻譯、語音辨識、文本生成、情感分析、命名實體辨識（傳統上是 RNN 及其變種的主要應用領域）
語音辨識	處理音頻序列和聲學模型
時間序列預測	股票價格、天氣預報、傳感器數據、醫療數據趨勢
影片處理	動作辨識、影片內容理解

7Transformer 架構與注意力機制

2017 Attention Is All You Need — 顛覆 RNN/LSTM 的序列建模新典範

7.1Transformer 定位與動機

面向	內容
提出方/年代	Google，2017 年論文《Attention Is All You Need》
定位	完全基於注意力機制（Attention Mechanism）的深度學習模型；捨棄傳統 RNN 的循環結構和 CNN 的卷積結構
設計動機 ①	解決 RNN/LSTM 在處理長序列時的長期依賴問題（梯度消失）
設計動機 ②	解決 RNN 串行結構的並行化困難 → 提供能並行處理且能處理長距離依賴的方法

7.2Encoder-Decoder 架構

堆疊	功能	核心組件
編碼器堆疊 Encoder Stack	「理解者」/「特徵提取器」 — 將輸入序列每個元素轉換成富含上下文資訊的高維度「上下文表示」	① 多頭自注意力機制 ② 前饋網路 FFN
解碼器堆疊 Decoder Stack	接收編碼器的上下文表示 + 已生成的部分目標序列，自迴歸地生成連貫輸出序列	① 帶遮罩的多頭自注意力（不能偷看未來詞） ② 編碼器-解碼器注意力（關注編碼器輸出） ③ 前饋網路 FFN

7.3注意力機制 QKV

向量	角色	意義
Query（Q）	查詢向量	「我在找什麼？」「我的興趣是什麼？」
Key（K）	鍵向量	「我能提供什麼？」「我的內容是什麼？」
Value（V）	值向量	「如果我被關注了，我會提供什麼資訊？」

7.4四大關鍵組件

組件	做什麼	為什麼
① 多頭注意力 Multi-Head Attention	並行執行多次（多個「頭」）獨立的自注意力運算，每個頭有自己的 QKV 權重矩陣，學習不同的注意力模式；最後拼接 + 線性轉換	捕捉多樣關係，增強表示能力（多視角的上下文表示）
② 位置編碼 Positional Encoding	透過正弦／餘弦函數（sinusoidal / cosine）的位置向量加到原始詞嵌入上	Transformer 摒棄循環結構，無法直接感知序列順序 → 需注入位置資訊
③ 前饋網路 Feed-Forward Network	兩個線性層 + 中間 ReLU 激活的全連接網路；對每個位置獨立應用	進一步轉換和處理注意力層提取的資訊
④ 殘差連接 + 層歸一化 Residual + LayerNorm	子層輸入直接加到輸出（`Output = Input + Sublayer(Input)`），再做歸一化	殘差緩解梯度消失、允許構建極深網路；LayerNorm 穩定訓練、減少內部協變偏移（ICS）；不依賴批次大小適合 NLP

7.5Transformer 衍伸 — 四大預訓練語言模型

模型	提出方	架構部分	核心特色
BERT Bidirectional Encoder Representations from Transformers	Google	編碼器部分	雙向上下文預訓練（Masked Language Model + Next Sentence Prediction），擅長語言理解任務
GPT 系列 Generative Pre-trained Transformer	OpenAI	解碼器部分	單向（自迴歸）預訓練；擅長文本生成，展現驚人的零樣本（Zero-shot）和少樣本（Few-shot）學習能力（GPT-2/3/4/5）
T5 Text-to-Text Transfer Transformer	Google	完整 Encoder-Decoder	將所有 NLP 任務統一視為「文字到文字」問題（分類/摘要/問答/翻譯皆轉為生成另一文本）→ 通用性強
ViT Vision Transformer	—	Transformer	將圖像切成固定大小的圖像塊（Patches）當「詞語」直接輸入 Transformer → 證明 Transformer 處理網格狀資料的潛力，挑戰 CNN 在影像任務的主導地位
長序列 Transformer Longformer / Reformer / Performer	—	稀疏注意力等	解決原始 Transformer 自注意力計算複雜度 O(L²) 的問題，透過稀疏/局部注意力使其能處理數千甚至數萬 tokens

7.6Transformer 四大限制

限制	說明
計算複雜度高	自注意力的計算複雜度與序列長度平方 O(L²) 成正比 → 處理極長序列時計算量和記憶體消耗巨大
記憶體消耗大	需儲存注意力權重矩陣，長序列佔用大量記憶體
數據飢渴	大型 Transformer 需要大量標註或未標註資料才能充分發揮效能，否則易過擬合
缺乏內建序列歸納偏置	與 RNN 不同，Transformer 需額外引入位置編碼來提供順序資訊

8生成式模型：Autoencoder & GAN

學習數據底層分佈，生成全新樣本

8.1自編碼器（Autoencoder）

面向	內容
定位	學習輸入數據高效表示（Encoding）的非監督式學習模型；透過嘗試重構自身輸入來達到學習目的
① 編碼器（Encoder）	將高維度輸入數據編碼為低維度潛在空間向量 → 通常稱為瓶頸層（Bottleneck Layer）
② 解碼器（Decoder）	將潛在空間向量解碼回原始輸入數據的維度
訓練目標	最小化重構誤差（Reconstruction Error） — 衡量原始輸入與重構輸出的相似度
常用損失函數	MSE 用於連續數據；二元交叉熵用於二元數據

8.2自編碼器四大應用

應用	說明
① 降維	學習數據的低維潛在表示，達到降維與資料壓縮效果
② 特徵學習	潛在表示可作為原始資料的抽象特徵 → 作為無監督預訓練，為後續分類/聚類提供特徵工程
③ 數據去噪	去噪自編碼器：從帶噪聲的輸入中重構出乾淨的數據
④ 異常偵測	對正常數據重構誤差小、對異常數據重構誤差大 → 用重構誤差辨識離群值

8.3GAN 生成對抗網路

面向	內容
核心機制	兩個神經網路的「對抗」過程 — 在「零和博弈（Zero-Sum Game）」中訓練至平衡
① 生成器 Generator	輸入：隨機噪聲向量（通常從高斯分佈採樣）功能：把隨機噪音轉換成看起來像真實數據的樣本 → 試圖「欺騙判別器」
② 判別器 Discriminator	輸入：真實訓練數據樣本 + 生成器生成的假樣本功能：二元分類器，目標是準確區分「真實」vs「生成」
訓練終態	達到「納什均衡（Nash Equilibrium）」 — 生成器生成的數據高度逼真，判別器幾乎無法區分

8.4GAN 訓練流程（迭代）

階段	做什麼
① 訓練判別器	最大化區分真實與生成資料的能力 → 對真實數據給高分（≈1）、對生成數據給低分（≈0）
② 訓練生成器	判別器參數固定，生成器試圖最小化判別器將其輸出辨識為假的能力 → 讓判別器對假數據也給高分（≈1）
③ 重複	不斷重複直到達到納什均衡

8.5Autoencoder vs GAN 對照

面向	Autoencoder	GAN
核心結構	Encoder + Bottleneck + Decoder	Generator vs Discriminator
學習方式	非監督式 — 最小化重構誤差	對抗式 — 零和博弈，達納什均衡
主要用途	降維、特徵學習、去噪、異常偵測	生成高品質新樣本、跨模態生成、風格遷移、超解析度、圖像上色
限制	重構而非生成新數據；潛在空間缺乏結構	訓練不穩定（模式崩潰）；超參數敏感；評估困難

9深度學習主流框架

TensorFlow + Keras / PyTorch / JAX·MXNet·PaddlePaddle

9.1TensorFlow + Keras

框架	提出方/年代	核心特性
TensorFlow	Google，2015 發布	① 計算圖：早期靜態圖，TF 2.x 轉向即時執行（Eager Execution） ② 跨平台部署：CPU / GPU / TPU（Google 自研張量處理單元） / 行動裝置（TF Lite）/ 物聯網（TF Lite Micro）/ 網頁（TF.js） ③ 生產級部署：TFX（管道管理）+ TensorFlow Serving（模型服務）
Keras	高階 API	TF 2.0 起完全整合為 tf.keras（TensorFlow 官方高階 API） ① 極簡主義（最少代碼建構模型）② 模組化（自由組合層/激活/優化器）③ 易於原型開發（快速試驗）④ 靈活後端（早期支援 TF/Theano/CNTK）

9.2PyTorch

面向	內容
提出方	Facebook AI Research（FAIR）
最大特點	動態計算圖（Dynamic Computation Graph） — 運算在定義時立即執行，不像早期 TensorFlow 先構建完整圖形再運行
① 即時執行	行為更像標準 Python 代碼 → 簡化調試、開發與實驗
② Pythonic 介面	API 設計高度貼合 Python 用法
③ 自動微分	內建 Autograd 引擎，自動計算梯度（反向傳播必備）
④ 豐富生態系	`torchvision`（視覺）/ `torchtext`（NLP）/ `torchaudio`（語音）/ PyTorch Lightning / Hugging Face Transformers
主要應用領域	學術研究 + 快速原型開發的首選

9.3其他框架簡介

框架	提出方	定位
JAX	Google	機器學習轉換（ML Transformations）框架，結合NumPy 易用性 + 自動微分 + GPU/TPU 高效利用；非傳統端到端框架，更像數值計算庫，提供高效能數值運算與函數式程式設計
MXNet	Apache（AWS 主要支持）	靈活高效的深度學習框架；支援多種程式語言綁定；提供混合式程式設計（兼具符號式和命令式風格）
PaddlePaddle	—	由特定組織支持的開源深度學習框架，在特定領域有其獨特優勢和定位

9.4TensorFlow vs PyTorch 對照

面向	TensorFlow	PyTorch
提出方	Google（2015）	Facebook AI Research（FAIR）
計算圖	早期靜態圖，TF 2.x 改 Eager Execution	動態圖（定義即執行）
API 風格	較工程取向，含完整生產生態系	Pythonic，貼合 Python 習慣
主戰場	業界 + 學術；生產級部署（TFX/Serving/Lite）	學術研究 + 快速原型開發
高階 API	tf.keras（TF 2.0 起整合）	PyTorch Lightning（社群）
硬體	CPU / GPU / TPU / 行動 / 物聯網 / 網頁	CPU / GPU

AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23203 深度學習原理與框架 · v1.0（2026-05 表格化精簡版）