L21101自然語言處理技術與應用

0%

L21101 自然語言處理技術與應用

2NLP 基礎概念與發展脈絡

定義 + 四階段演進

2.1三任務層次（理 → 處 → 生）

層次／英文	做什麼
理解 Understand	解析語法/語意，辨識意圖、情緒
處理 Process	轉換為電腦可操作結構（特徵向量、語法樹）
生成 Generate	自動產出語句，呈現自然文字/語音

2.2NLP / NLU / NLG 三層分工

名稱	定位	應用例
NLP	總稱框架（含 NLU + NLG）	對話系統、翻譯、語音助理
NLU	理解階段	意圖辨識、NER、情感分析
NLG	產出階段	自動摘要、回應生成、報告撰寫

2.3四階段演進總覽

階段	年代	主流方法	代表
A 規則式	1980s–1990s	手動設計語法規則 + 辭典	ELIZA、專家系統
B 統計 LM	1990s–2010	大量語料訓練機率模型	N-gram、HMM、CRF
C 深度學習	2010–2018	神經網路處理序列	RNN、LSTM、GRU
D 預訓練 LM	2018–至今	大規模語料預訓練 + 下游微調	BERT、GPT、T5

2.4四階段「突破 vs 痛點」對照

階段	突破	痛點
規則式	高可解釋性、特定領域穩定	依賴專家、無法應對語言變化
統計 LM	自動從語料學習、可擴展	無深度語意、無法長距離依賴
深度學習	自動學特徵、處理任意長序列	訓練慢（無法並行）、梯度消失
預訓練 LM	通用語言知識壓進大模型、下游 fine-tune	算力需求高、訓練成本高

2.5預訓練 LM 四模型分工

模型	架構	方向	適合
BERT	Transformer Encoder	雙向	分類、問答、NER（理解型）
GPT	Transformer Decoder	單向（左→右）	對話、生成、摘要（生成型）
RoBERTa	BERT 強化版	雙向	更穩健的理解任務
T5	Encoder-Decoder	雙向 → 單向	文本到文本統一框架

3NLP 前處理（Preprocessing）

分詞 / 詞性標注 / 詞形還原 + 停用詞

3.1前處理三件套對照

技術	做什麼	例子	備註
Tokenization 分詞	連續文字 → 最小語意單位	英文用空格、中文用演算法（最大匹配/HMM/CRF/BERT-based）	子詞分割：BPE（GPT）/ WordPiece（BERT）/ SentencePiece
POS Tagging 詞性標注	標註每個詞的詞性	`小明/NN 昨天/RB 去/VB 學校/NN`	句法分析、NER 的基石
Lemmatization 詞形還原	回到字典原型（查字典 + 看詞性）	`better → good` / `running → run`	較準確
Stemming 詞幹提取	砍掉詞綴留詞幹（規則式）	`running → run` / `cats → cat`	快但可能變非字
Stopword Removal 停用詞移除	去掉無意義高頻詞	`the / a / 的 / 了`	降噪、縮小向量空間

4NLP 關鍵技術與常用模型

詞嵌入族系 / 深度學習 / 預訓練 LM / Prompt-RAG-LoRA

4.1表示法二維度分類

維度	非語境 / 非分布式	語境型 / 分布式
語境	同詞不同位置 = 同向量（Word2Vec、GloVe）	同詞不同位置 = 不同向量（ELMo、BERT、GPT）
分布	One-hot — 詞之間獨立，無語意關聯	Word2Vec 等 — 詞在空間中有語意關係

4.2詞嵌入族系七法總覽

方法	原理	強項	限制
One-hot	N 維 0/1 向量（N = 詞彙表大小）	簡單	高維稀疏、無語意
BoW	文件 → 詞頻向量，忽略順序	易實作	忽略語序、語意
TF-IDF	`TF × IDF`，加權罕見詞	突顯關鍵詞	仍無語意關聯
N-gram	連續 N 詞為一組統計機率	捕捉局部詞序	N 大資料稀疏、長依賴失效
Word2Vec	CBOW（上下文→中心詞）/ Skip-gram（中心詞→上下文）	語意推理（king−man+woman≈queen）	非語境型
GloVe	共現矩陣 + 全域統計	結合全域+局部	非語境型
FastText	子詞（subword）為單位	處理 OOV 未登錄詞	非語境型

4.3TF-IDF 公式與示例

步驟	公式	計算示例
TF（詞頻）	詞 t 在文件 d 中出現次數 / 文件 d 總詞數	「AI」出現 2 / 文件 200 詞 = 0.01
IDF（反文件頻）	log(文件總數 / 包含 t 的文件數)	100 篇中 33 篇有 AI ≈ 0.48
TF-IDF	TF × IDF	0.01 × 0.48 × 6.25 ≈ 0.06（教材鎖死值）

4.4Word2Vec：CBOW vs Skip-gram

模型	輸入	輸出	適合
CBOW	上下文詞	中心詞	小資料、常見詞
Skip-gram	中心詞	上下文詞	大資料、罕見詞

4.5RNN 家族對比

模型	特性	解決問題	剩餘痛點
RNN	循環處理序列	能處理任意長序列	梯度消失、長依賴失效
LSTM	三閘門（input/forget/output）	解決長依賴	參數多、訓練慢
GRU	兩閘門（update/reset）簡化版	參數少、訓練快	仍無法並行

4.6Transformer 三件武器

武器	作用	關鍵
Self-Attention	序列中每個詞與其他所有詞算注意力權重	捕捉長距離關係
QKV / Multi-Head	Query/Key/Value 投影 + 多組並行	`softmax(QK^T/√d) · V`
Positional Encoding	因無循環結構，需注入順序資訊	位置編碼補回序列訊息

4.7預訓練 LM：ELMo / BERT / GPT

模型	架構	方向	強項
ELMo	雙向 LSTM 拼接	雙向（拼接）	第一代語境型 embedding
BERT	Transformer Encoder	雙向（同步）	分類、問答、NER
GPT	Transformer Decoder	單向（左→右）	生成、對話、續寫

4.8Prompt / RAG / LoRA 五技術

技術	做什麼	用途	一句話比喻
Prompt-based	用自然語言引導模型做任務	不改模型權重	「用嘴指揮」
Zero-shot	不給範例直接問	泛化測試	—
Few-shot	給少量範例後問	提升準確率	—
RAG	檢索外部知識庫 + 生成	減少幻覺、即時知識	「借書」
LoRA	凍結原模型 + 訓練低秩矩陣	少資源 fine-tune	「戴外掛」

5NLP 應用情境與案例

六類任務 = NLP 在現實世界的六個工作崗位

任務	實際應用	挑戰
① 文本分類	垃圾信過濾、新聞分類、客訴分流	類別不平衡、新類別冷啟動
② 情感分析	商品評論、品牌口碑、政治輿情	諷刺、隱晦表達難捕捉
③ 機器翻譯	Google Translate、DeepL、跨境電商	低資源語言、文化語境
④ NER 命名實體辨識	合約抽取、醫療紀錄、法律文件	實體邊界模糊、領域專有名詞
⑤ 對話系統	ChatGPT、客服機器人、語音助理	上下文記憶、多輪意圖
⑥ 文本摘要	新聞摘要、會議記錄、學術論文	抽取式 vs 生成式取捨

6NLP 技術挑戰與風險

資料層 → 模型層 → 應用層

6.1風險三層鏈總覽

層	風險點	對策
資料層	隱私洩漏、標註品質、授權版權	去識別化、人工校驗、合規授權
模型層	幻覺、偏見、可解釋性	RAG 接知識庫、WEAT 偏見測試、XAI
應用層	公平性、多語言落差、濫用	多語料平衡、使用政策、人工 review

6.2隱私去識別化五法

方法	做什麼	是否可逆
Pseudonymization 假名化	用假名替代真實識別資訊	✅ 可逆（去識別化）
Generalization 一般化	精確值 → 範圍（35 歲 → 30-40 歲）	部分可逆
Masking 遮蔽	遮蓋部分內容（****1234）	不可逆
Randomization 隨機化	加雜訊干擾原值	不可逆
Aggregation 聚合	只看群體統計不看個體	不可逆

6.3模型 + 應用層三大風險

風險	說明 / 教材原文示例	緩解
幻覺 Hallucination	生成「法國首都在柏林」這類事實錯誤但語句通順的內容	RAG 接知識庫、事實校驗、人工 review
偏見 Bias	WEAT（Word Embedding Association Test）測試：男性名與工程詞彙關聯強、女性名與家務詞彙關聯強	偏見偵測、語料平衡、debiasing
多語言公平	英文/中文等高資源語言表現好，泰文/原住民族語等低資源語言表現差	多語料投入、跨語言遷移學習

AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L21101 考前複習筆記 · v2.0（2026-05-17 表格化精簡版）