L21101自然語言處理技術與應用
0%

L21101 自然語言處理技術與應用

2NLP 基礎概念與發展脈絡
定義 + 四階段演進

2.1三任務層次(理 → 處 → 生)

層次/英文做什麼
理解
Understand
解析語法/語意,辨識意圖、情緒
處理
Process
轉換為電腦可操作結構(特徵向量、語法樹)
生成
Generate
自動產出語句,呈現自然文字/語音

2.2NLP / NLU / NLG 三層分工

名稱定位應用例
NLP總稱框架(含 NLU + NLG)對話系統、翻譯、語音助理
NLU理解階段意圖辨識、NER、情感分析
NLG產出階段自動摘要、回應生成、報告撰寫

2.3四階段演進總覽

階段年代主流方法代表
A 規則式1980s–1990s手動設計語法規則 + 辭典ELIZA、專家系統
B 統計 LM1990s–2010大量語料訓練機率模型N-gram、HMM、CRF
C 深度學習2010–2018神經網路處理序列RNN、LSTM、GRU
D 預訓練 LM2018–至今大規模語料預訓練 + 下游微調BERT、GPT、T5

2.4四階段「突破 vs 痛點」對照

階段突破痛點
規則式高可解釋性、特定領域穩定依賴專家、無法應對語言變化
統計 LM自動從語料學習、可擴展無深度語意、無法長距離依賴
深度學習自動學特徵、處理任意長序列訓練慢(無法並行)、梯度消失
預訓練 LM通用語言知識壓進大模型、下游 fine-tune算力需求高、訓練成本高

2.5預訓練 LM 四模型分工

模型架構方向適合
BERTTransformer Encoder雙向分類、問答、NER(理解型)
GPTTransformer Decoder單向(左→右)對話、生成、摘要(生成型)
RoBERTaBERT 強化版雙向更穩健的理解任務
T5Encoder-Decoder雙向 → 單向文本到文本統一框架
3NLP 前處理(Preprocessing)
分詞 / 詞性標注 / 詞形還原 + 停用詞

3.1前處理三件套對照

技術做什麼例子備註
Tokenization
分詞
連續文字 → 最小語意單位英文用空格、中文用演算法(最大匹配/HMM/CRF/BERT-based)子詞分割:BPE(GPT)/ WordPiece(BERT)/ SentencePiece
POS Tagging
詞性標注
標註每個詞的詞性小明/NN 昨天/RB 去/VB 學校/NN句法分析、NER 的基石
Lemmatization
詞形還原
回到字典原型(查字典 + 看詞性)better → good / running → run較準確
Stemming
詞幹提取
砍掉詞綴留詞幹(規則式)running → run / cats → cat快但可能變非字
Stopword Removal
停用詞移除
去掉無意義高頻詞the / a / 的 / 了降噪、縮小向量空間
4NLP 關鍵技術與常用模型
詞嵌入族系 / 深度學習 / 預訓練 LM / Prompt-RAG-LoRA

4.1表示法二維度分類

維度非語境 / 非分布式語境型 / 分布式
語境同詞不同位置 = 同向量(Word2Vec、GloVe)同詞不同位置 = 不同向量(ELMo、BERT、GPT)
分布One-hot — 詞之間獨立,無語意關聯Word2Vec 等 — 詞在空間中有語意關係

4.2詞嵌入族系七法總覽

方法原理強項限制
One-hotN 維 0/1 向量(N = 詞彙表大小)簡單高維稀疏、無語意
BoW文件 → 詞頻向量,忽略順序易實作忽略語序、語意
TF-IDFTF × IDF,加權罕見詞突顯關鍵詞仍無語意關聯
N-gram連續 N 詞為一組統計機率捕捉局部詞序N 大資料稀疏、長依賴失效
Word2VecCBOW(上下文→中心詞)/ Skip-gram(中心詞→上下文)語意推理(king−man+woman≈queen)非語境型
GloVe共現矩陣 + 全域統計結合全域+局部非語境型
FastText子詞(subword)為單位處理 OOV 未登錄詞非語境型

4.3TF-IDF 公式與示例

步驟公式計算示例
TF(詞頻)詞 t 在文件 d 中出現次數 / 文件 d 總詞數「AI」出現 2 / 文件 200 詞 = 0.01
IDF(反文件頻)log(文件總數 / 包含 t 的文件數)100 篇中 33 篇有 AI ≈ 0.48
TF-IDFTF × IDF0.01 × 0.48 × 6.25 ≈ 0.06(教材鎖死值)

4.4Word2Vec:CBOW vs Skip-gram

模型輸入輸出適合
CBOW上下文詞中心詞小資料、常見詞
Skip-gram中心詞上下文詞大資料、罕見詞

4.5RNN 家族對比

模型特性解決問題剩餘痛點
RNN循環處理序列能處理任意長序列梯度消失、長依賴失效
LSTM三閘門(input/forget/output)解決長依賴參數多、訓練慢
GRU兩閘門(update/reset)簡化版參數少、訓練快仍無法並行

4.6Transformer 三件武器

武器作用關鍵
Self-Attention序列中每個詞與其他所有詞算注意力權重捕捉長距離關係
QKV / Multi-HeadQuery/Key/Value 投影 + 多組並行softmax(QK^T/√d) · V
Positional Encoding因無循環結構,需注入順序資訊位置編碼補回序列訊息

4.7預訓練 LM:ELMo / BERT / GPT

模型架構方向強項
ELMo雙向 LSTM 拼接雙向(拼接)第一代語境型 embedding
BERTTransformer Encoder雙向(同步)分類、問答、NER
GPTTransformer Decoder單向(左→右)生成、對話、續寫

4.8Prompt / RAG / LoRA 五技術

技術做什麼用途一句話比喻
Prompt-based用自然語言引導模型做任務不改模型權重「用嘴指揮」
Zero-shot不給範例直接問泛化測試
Few-shot給少量範例後問提升準確率
RAG檢索外部知識庫 + 生成減少幻覺、即時知識「借書」
LoRA凍結原模型 + 訓練低秩矩陣少資源 fine-tune「戴外掛」
5NLP 應用情境與案例
六類任務 = NLP 在現實世界的六個工作崗位
任務實際應用挑戰
① 文本分類垃圾信過濾、新聞分類、客訴分流類別不平衡、新類別冷啟動
② 情感分析商品評論、品牌口碑、政治輿情諷刺、隱晦表達難捕捉
③ 機器翻譯Google Translate、DeepL、跨境電商低資源語言、文化語境
④ NER
命名實體辨識
合約抽取、醫療紀錄、法律文件實體邊界模糊、領域專有名詞
⑤ 對話系統ChatGPT、客服機器人、語音助理上下文記憶、多輪意圖
⑥ 文本摘要新聞摘要、會議記錄、學術論文抽取式 vs 生成式取捨
6NLP 技術挑戰與風險
資料層 → 模型層 → 應用層

6.1風險三層鏈總覽

風險點對策
資料層隱私洩漏、標註品質、授權版權去識別化、人工校驗、合規授權
模型層幻覺、偏見、可解釋性RAG 接知識庫、WEAT 偏見測試、XAI
應用層公平性、多語言落差、濫用多語料平衡、使用政策、人工 review

6.2隱私去識別化五法

方法做什麼是否可逆
Pseudonymization
假名化
用假名替代真實識別資訊✅ 可逆(去識別化)
Generalization
一般化
精確值 → 範圍(35 歲 → 30-40 歲)部分可逆
Masking
遮蔽
遮蓋部分內容(****1234)不可逆
Randomization
隨機化
加雜訊干擾原值不可逆
Aggregation
聚合
只看群體統計不看個體不可逆

6.3模型 + 應用層三大風險

風險說明 / 教材原文示例緩解
幻覺
Hallucination
生成「法國首都在柏林」這類事實錯誤但語句通順的內容RAG 接知識庫、事實校驗、人工 review
偏見
Bias
WEAT(Word Embedding Association Test)測試:男性名與工程詞彙關聯強、女性名與家務詞彙關聯強偏見偵測、語料平衡、debiasing
多語言公平英文/中文等高資源語言表現好,泰文/原住民族語等低資源語言表現差多語料投入、跨語言遷移學習
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L21101 考前複習筆記 · v2.0(2026-05-17 表格化精簡版)