L21101 自然語言處理技術與應用
2NLP 基礎概念與發展脈絡
定義 + 四階段演進
2.1三任務層次(理 → 處 → 生)
| 層次/英文 | 做什麼 |
|---|---|
| 理解 Understand | 解析語法/語意,辨識意圖、情緒 |
| 處理 Process | 轉換為電腦可操作結構(特徵向量、語法樹) |
| 生成 Generate | 自動產出語句,呈現自然文字/語音 |
2.2NLP / NLU / NLG 三層分工
| 名稱 | 定位 | 應用例 |
|---|---|---|
| NLP | 總稱框架(含 NLU + NLG) | 對話系統、翻譯、語音助理 |
| NLU | 理解階段 | 意圖辨識、NER、情感分析 |
| NLG | 產出階段 | 自動摘要、回應生成、報告撰寫 |
2.3四階段演進總覽
| 階段 | 年代 | 主流方法 | 代表 |
|---|---|---|---|
| A 規則式 | 1980s–1990s | 手動設計語法規則 + 辭典 | ELIZA、專家系統 |
| B 統計 LM | 1990s–2010 | 大量語料訓練機率模型 | N-gram、HMM、CRF |
| C 深度學習 | 2010–2018 | 神經網路處理序列 | RNN、LSTM、GRU |
| D 預訓練 LM | 2018–至今 | 大規模語料預訓練 + 下游微調 | BERT、GPT、T5 |
2.4四階段「突破 vs 痛點」對照
| 階段 | 突破 | 痛點 |
|---|---|---|
| 規則式 | 高可解釋性、特定領域穩定 | 依賴專家、無法應對語言變化 |
| 統計 LM | 自動從語料學習、可擴展 | 無深度語意、無法長距離依賴 |
| 深度學習 | 自動學特徵、處理任意長序列 | 訓練慢(無法並行)、梯度消失 |
| 預訓練 LM | 通用語言知識壓進大模型、下游 fine-tune | 算力需求高、訓練成本高 |
2.5預訓練 LM 四模型分工
| 模型 | 架構 | 方向 | 適合 |
|---|---|---|---|
| BERT | Transformer Encoder | 雙向 | 分類、問答、NER(理解型) |
| GPT | Transformer Decoder | 單向(左→右) | 對話、生成、摘要(生成型) |
| RoBERTa | BERT 強化版 | 雙向 | 更穩健的理解任務 |
| T5 | Encoder-Decoder | 雙向 → 單向 | 文本到文本統一框架 |
3NLP 前處理(Preprocessing)
分詞 / 詞性標注 / 詞形還原 + 停用詞
3.1前處理三件套對照
| 技術 | 做什麼 | 例子 | 備註 |
|---|---|---|---|
| Tokenization 分詞 | 連續文字 → 最小語意單位 | 英文用空格、中文用演算法(最大匹配/HMM/CRF/BERT-based) | 子詞分割:BPE(GPT)/ WordPiece(BERT)/ SentencePiece |
| POS Tagging 詞性標注 | 標註每個詞的詞性 | 小明/NN 昨天/RB 去/VB 學校/NN | 句法分析、NER 的基石 |
| Lemmatization 詞形還原 | 回到字典原型(查字典 + 看詞性) | better → good / running → run | 較準確 |
| Stemming 詞幹提取 | 砍掉詞綴留詞幹(規則式) | running → run / cats → cat | 快但可能變非字 |
| Stopword Removal 停用詞移除 | 去掉無意義高頻詞 | the / a / 的 / 了 | 降噪、縮小向量空間 |
4NLP 關鍵技術與常用模型
詞嵌入族系 / 深度學習 / 預訓練 LM / Prompt-RAG-LoRA
4.1表示法二維度分類
| 維度 | 非語境 / 非分布式 | 語境型 / 分布式 |
|---|---|---|
| 語境 | 同詞不同位置 = 同向量(Word2Vec、GloVe) | 同詞不同位置 = 不同向量(ELMo、BERT、GPT) |
| 分布 | One-hot — 詞之間獨立,無語意關聯 | Word2Vec 等 — 詞在空間中有語意關係 |
4.2詞嵌入族系七法總覽
| 方法 | 原理 | 強項 | 限制 |
|---|---|---|---|
| One-hot | N 維 0/1 向量(N = 詞彙表大小) | 簡單 | 高維稀疏、無語意 |
| BoW | 文件 → 詞頻向量,忽略順序 | 易實作 | 忽略語序、語意 |
| TF-IDF | TF × IDF,加權罕見詞 | 突顯關鍵詞 | 仍無語意關聯 |
| N-gram | 連續 N 詞為一組統計機率 | 捕捉局部詞序 | N 大資料稀疏、長依賴失效 |
| Word2Vec | CBOW(上下文→中心詞)/ Skip-gram(中心詞→上下文) | 語意推理(king−man+woman≈queen) | 非語境型 |
| GloVe | 共現矩陣 + 全域統計 | 結合全域+局部 | 非語境型 |
| FastText | 子詞(subword)為單位 | 處理 OOV 未登錄詞 | 非語境型 |
4.3TF-IDF 公式與示例
| 步驟 | 公式 | 計算示例 |
|---|---|---|
| TF(詞頻) | 詞 t 在文件 d 中出現次數 / 文件 d 總詞數 | 「AI」出現 2 / 文件 200 詞 = 0.01 |
| IDF(反文件頻) | log(文件總數 / 包含 t 的文件數) | 100 篇中 33 篇有 AI ≈ 0.48 |
| TF-IDF | TF × IDF | 0.01 × 0.48 × 6.25 ≈ 0.06(教材鎖死值) |
4.4Word2Vec:CBOW vs Skip-gram
| 模型 | 輸入 | 輸出 | 適合 |
|---|---|---|---|
| CBOW | 上下文詞 | 中心詞 | 小資料、常見詞 |
| Skip-gram | 中心詞 | 上下文詞 | 大資料、罕見詞 |
4.5RNN 家族對比
| 模型 | 特性 | 解決問題 | 剩餘痛點 |
|---|---|---|---|
| RNN | 循環處理序列 | 能處理任意長序列 | 梯度消失、長依賴失效 |
| LSTM | 三閘門(input/forget/output) | 解決長依賴 | 參數多、訓練慢 |
| GRU | 兩閘門(update/reset)簡化版 | 參數少、訓練快 | 仍無法並行 |
4.6Transformer 三件武器
| 武器 | 作用 | 關鍵 |
|---|---|---|
| Self-Attention | 序列中每個詞與其他所有詞算注意力權重 | 捕捉長距離關係 |
| QKV / Multi-Head | Query/Key/Value 投影 + 多組並行 | softmax(QK^T/√d) · V |
| Positional Encoding | 因無循環結構,需注入順序資訊 | 位置編碼補回序列訊息 |
4.7預訓練 LM:ELMo / BERT / GPT
| 模型 | 架構 | 方向 | 強項 |
|---|---|---|---|
| ELMo | 雙向 LSTM 拼接 | 雙向(拼接) | 第一代語境型 embedding |
| BERT | Transformer Encoder | 雙向(同步) | 分類、問答、NER |
| GPT | Transformer Decoder | 單向(左→右) | 生成、對話、續寫 |
4.8Prompt / RAG / LoRA 五技術
| 技術 | 做什麼 | 用途 | 一句話比喻 |
|---|---|---|---|
| Prompt-based | 用自然語言引導模型做任務 | 不改模型權重 | 「用嘴指揮」 |
| Zero-shot | 不給範例直接問 | 泛化測試 | — |
| Few-shot | 給少量範例後問 | 提升準確率 | — |
| RAG | 檢索外部知識庫 + 生成 | 減少幻覺、即時知識 | 「借書」 |
| LoRA | 凍結原模型 + 訓練低秩矩陣 | 少資源 fine-tune | 「戴外掛」 |
5NLP 應用情境與案例
六類任務 = NLP 在現實世界的六個工作崗位
| 任務 | 實際應用 | 挑戰 |
|---|---|---|
| ① 文本分類 | 垃圾信過濾、新聞分類、客訴分流 | 類別不平衡、新類別冷啟動 |
| ② 情感分析 | 商品評論、品牌口碑、政治輿情 | 諷刺、隱晦表達難捕捉 |
| ③ 機器翻譯 | Google Translate、DeepL、跨境電商 | 低資源語言、文化語境 |
| ④ NER 命名實體辨識 | 合約抽取、醫療紀錄、法律文件 | 實體邊界模糊、領域專有名詞 |
| ⑤ 對話系統 | ChatGPT、客服機器人、語音助理 | 上下文記憶、多輪意圖 |
| ⑥ 文本摘要 | 新聞摘要、會議記錄、學術論文 | 抽取式 vs 生成式取捨 |
6NLP 技術挑戰與風險
資料層 → 模型層 → 應用層
6.1風險三層鏈總覽
| 層 | 風險點 | 對策 |
|---|---|---|
| 資料層 | 隱私洩漏、標註品質、授權版權 | 去識別化、人工校驗、合規授權 |
| 模型層 | 幻覺、偏見、可解釋性 | RAG 接知識庫、WEAT 偏見測試、XAI |
| 應用層 | 公平性、多語言落差、濫用 | 多語料平衡、使用政策、人工 review |
6.2隱私去識別化五法
| 方法 | 做什麼 | 是否可逆 |
|---|---|---|
| Pseudonymization 假名化 | 用假名替代真實識別資訊 | ✅ 可逆(去識別化) |
| Generalization 一般化 | 精確值 → 範圍(35 歲 → 30-40 歲) | 部分可逆 |
| Masking 遮蔽 | 遮蓋部分內容(****1234) | 不可逆 |
| Randomization 隨機化 | 加雜訊干擾原值 | 不可逆 |
| Aggregation 聚合 | 只看群體統計不看個體 | 不可逆 |
6.3模型 + 應用層三大風險
| 風險 | 說明 / 教材原文示例 | 緩解 |
|---|---|---|
| 幻覺 Hallucination | 生成「法國首都在柏林」這類事實錯誤但語句通順的內容 | RAG 接知識庫、事實校驗、人工 review |
| 偏見 Bias | WEAT(Word Embedding Association Test)測試:男性名與工程詞彙關聯強、女性名與家務詞彙關聯強 | 偏見偵測、語料平衡、debiasing |
| 多語言公平 | 英文/中文等高資源語言表現好,泰文/原住民族語等低資源語言表現差 | 多語料投入、跨語言遷移學習 |
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L21101 考前複習筆記 · v2.0(2026-05-17 表格化精簡版)