# L21101 自然語言處理技術與應用 — 模擬試題 30 題

> 題型：四選一單選題（iPAS AI 規劃師中級 標準題型）
> 教材來源：`chunks/L21101.txt`（每題解析末標 chunks 行號）
> 命題原則：用易混淆概念設計干擾項（NLU vs NLG 對調、靜態 vs 語境型詞嵌入互換、BERT vs GPT 雙向/單向對調、定義 partial swap）

---

## 第一部分｜NLP 基礎概念與發展脈絡（Q1–Q7）

### Q1
下列關於自然語言處理（NLP）核心目標的敘述，何者**正確**？
- (A) 僅讓機器能將語音轉換為文字，不涉及語意理解
- (B) 讓電腦能「理解、處理並產生」自然語言，是推動人機溝通、自動化知識擷取與語言智慧創作的關鍵基礎
- (C) NLP 等同於語音辨識，與文字無關
- (D) NLP 僅處理結構化資料，與非結構化文字無關

**答案：(B)**
解析：NLP 的目標在於讓機器能像人類一樣參與語言溝通，三大任務層次 = 理解（Understand）/ 處理（Process）/ 生成（Generate）。（chunks line 21–29）

---

### Q2
下列關於 NLU（Natural Language Understanding）與 NLG（Natural Language Generation）的敘述，何者**錯誤**？
- (A) NLU 專注於機器如何「理解」人類語言的語法結構與語意邏輯
- (B) NLG 專注於將數據、知識或邏輯轉換為人類可讀且自然流暢的語句
- (C) NLU 應用包括意圖辨識、命名實體辨識（NER）、情感分析
- (D) NLG 屬於 NLP 的「理解」階段；NLU 屬於 NLP 的「產出」階段

**答案：(D)**
解析：定義對調 — NLU = 理解階段；NLG = 產出階段。常見干擾：把 NLU/NLG 的角色互換。（chunks line 33–43）

---

### Q3
下列關於 NLP 技術演進四階段的對應，何者**錯誤**？
- (A) 1980s–1990s：規則式方法 — 代表為 ELIZA、專家系統
- (B) 1990s–2010s：統計語言模型 — 代表為 N-gram、HMM、CRF
- (C) 2010s：深度學習模型 — 代表為 RNN、LSTM、GRU
- (D) 2018 至今：預訓練語言模型 — 代表為 Word2Vec、GloVe、FastText

**答案：(D)**
解析：Word2Vec/GloVe/FastText 屬「靜態詞嵌入」（分布式但非語境型），不屬於預訓練語言模型代表；預訓練 LM 代表為 BERT、GPT、RoBERTa、T5。（chunks line 51–56、189–200）

---

### Q4
下列關於規則式方法（Rule-based Systems）的敘述，何者**正確**？
- (A) 完全依賴專家知識手工編寫語法規則與詞彙辭典，擴展性差且維護成本高
- (B) 能自動從大量語料學習統計結構，不需人工設計規則
- (C) 採用神經網路捕捉長距離依賴關係
- (D) 採用自注意力機制進行全局語境建模

**答案：(A)**
解析：規則式方法的優勢 = 高可解釋性；限制 = 完全依賴專家知識、無法靈活應對語境變化、維護成本高。(B)(C)(D) 分別是統計、深度學習、Transformer 階段特性。（chunks line 60–64）

---

### Q5
N-gram 統計語言模型主要的**限制**為何？
- (A) 無法處理數值資料
- (B) 隨著 n 值增大需大量數據，且難以捕捉長距離依賴
- (C) 必須依賴 GPU/TPU 才能訓練
- (D) 僅能用於電腦視覺，不能用於文字

**答案：(B)**
解析：N-gram 隨 n 增大需大量訓練數據、長句子表現不佳、資料稀疏嚴重、無法捕捉長距依賴。（chunks line 82、198）

---

### Q6
下列哪一個模型解決了 RNN 與 LSTM 在「長距離依賴建模」上的局限，並透過自注意力機制實現全局語境建模與並行運算？
- (A) HMM（隱馬可夫模型）
- (B) N-gram
- (C) Transformer
- (D) CRF（條件隨機場）

**答案：(C)**
解析：Transformer（2017）摒棄序列遞迴結構，採自注意力機制（Self-Attention）讓每個詞能考慮整個序列中所有其他詞，解決長距離依賴並支援並行處理。（chunks line 106、570）

---

### Q7
下列關於 GRU（Gated Recurrent Unit）的敘述，何者**正確**？
- (A) GRU 是 LSTM 的簡化版本，結構更簡單且計算效率較高
- (B) GRU 是 LSTM 的複雜化版本，運算成本更高
- (C) GRU 完全捨棄門控機制
- (D) GRU 採用自注意力機制取代循環結構

**答案：(A)**
解析：GRU = LSTM 的簡化版，整合部分門控機制，運算較快、效果接近 LSTM；對長序列仍有限制。（chunks line 102、566）

---

## 第二部分｜NLP 前處理（Q8–Q11）

### Q8
下列關於詞形還原（Lemmatization）與詞幹提取（Stemming）的比較，何者**正確**？
- (A) Lemmatization 仰賴語法規則與字典，語意保留較佳，適合語意分析任務
- (B) Stemming 仰賴語法規則與字典，語意保留較佳
- (C) Lemmatization 處理速度比 Stemming 快，但準確性較低
- (D) 兩者完全相同，沒有差異

**答案：(A)**
解析：Lemmatization 用語法 + 字典，語意保留佳（running→run）；Stemming 用字首字尾裁剪規則，速度快但結果可能不是有效單字（happiness→happi）。常見干擾：把兩者特性互換。（chunks line 142–143、162–170）

---

### Q9
下列關於停用詞移除（Stopword Removal）的敘述，何者**錯誤**？
- (A) 目的是排除對分類與語意貢獻較小的高頻詞，凸顯核心詞彙
- (B) 常見於資訊檢索與主題建模任務
- (C) 在任何 NLP 任務中都必須移除停用詞，否則模型無法運作
- (D) 在對話生成、語法分析等應用中，有時需保留停用詞以維持語句完整性

**答案：(C)**
解析：停用詞移除「並非必要」— 在對話生成、語法分析等需語句完整性的情境，常需保留停用詞。（chunks line 144、172–178）

---

### Q10
下列關於分詞（Tokenization）的敘述，何者**正確**？
- (A) 中文、日文等無空白語言僅需以空白切詞
- (B) 將一段文字拆解為單字、詞組或子詞，作為語言處理的基本單位；中文等無空白語言通常需斷詞字典或模型輔助
- (C) 分詞錯誤對後續語法分析無影響
- (D) 分詞只能基於空白切詞，無法使用子詞分解（如 BPE）

**答案：(B)**
解析：分詞是文字處理起點；對中文需斷詞字典或模型；亦可用子詞分解（如 BPE）。分詞錯誤會直接影響後續語法/語意分析。（chunks line 140、146–150）

---

### Q11
下列關於詞性標注（POS Tagging）的功能描述，何者**正確**？
- (A) 為連接基礎語法與高階語意分析的橋樑，常作為命名實體辨識等任務的特徵工程
- (B) 僅用於將文字轉成向量，不涉及語法分析
- (C) 唯一用途是判斷文字是否為停用詞
- (D) 用於將「running」還原為「run」

**答案：(A)**
解析：POS Tagging 標記每個詞的語法角色（名詞/動詞/形容詞），常用於語法分析、NER 等任務的特徵工程。(D) 是 Lemmatization 描述。（chunks line 141、152–156）

---

## 第三部分｜詞彙向量化與詞嵌入（Q12–Q19）

### Q12
下列關於 One-hot Encoding 的敘述，何者**錯誤**？
- (A) 將每個詞表示為高維度向量，只有對應位置為 1，其餘為 0
- (B) 屬於分布式表示（Distributed Representation），能捕捉語意相似性
- (C) 結構簡單、容易實作，但向量稀疏且無法捕捉語意關聯
- (D) 不考慮詞彙順序與上下文資訊

**答案：(B)**
解析：One-hot 屬「非分布式 + 非語境型」，無法捕捉語意關聯 — 是常見干擾項把它說成分布式。（chunks line 192、224、236–260）

---

### Q13
tf-idf 的兩個組成（TF、IDF）的意義為何？
- (A) TF 衡量詞在「整體語料庫」中的稀有程度；IDF 衡量詞在「單一文件」中的頻率
- (B) TF 衡量詞在「單一文件」中出現的頻率；IDF 衡量詞在「整體語料庫」中的稀有程度
- (C) TF 與 IDF 都是衡量詞性標注的指標
- (D) TF-IDF 是一種詞嵌入方法，能捕捉語境變化

**答案：(B)**
解析：TF = 該詞在單一文件中出現次數 / 文件總詞數；IDF = log(|D| / 包含該詞的文件數)；tf-idf = TF × IDF。常見干擾把 TF/IDF 角色對調。（chunks line 314、326–342）

---

### Q14
下列關於 N-grams 表示的敘述，何者**正確**？
- (A) 能完整捕捉長距離依賴，比 Transformer 更強大
- (B) 將連續 N 個詞組成特徵單位，可保留短期語序與語法結構，但 N 過大時會引起稀疏與維度爆炸
- (C) 屬於語境型詞嵌入（如 BERT）
- (D) 與 Word2Vec 完全相同

**答案：(B)**
解析：N-grams 是統計共現表示，能保留語序但長句效果差、N 大時稀疏嚴重，無法捕捉長距依賴。（chunks line 198、384、400–410）

---

### Q15
下列關於 Word2Vec 兩種架構（CBOW 與 Skip-gram）的差異，何者**正確**？
- (A) CBOW 以給定上下文預測中心詞，訓練速度較快；Skip-gram 以中心詞預測上下文，對低頻詞更有效
- (B) CBOW 以中心詞預測上下文，對低頻詞更有效；Skip-gram 以上下文預測中心詞
- (C) 兩者完全相同，沒有差異
- (D) CBOW 與 Skip-gram 都需要 Transformer 才能運作

**答案：(A)**
解析：CBOW = 「上下文 → 中心詞」訓練快、適合小型語料；Skip-gram = 「中心詞 → 上下文」對低頻詞更有效、語意捕捉佳。常見干擾把兩者方向對調。（chunks line 452–470）

---

### Q16
下列關於 GloVe（Global Vectors for Word Representation）與 Word2Vec 在訓練機制上的差異，何者**正確**？
- (A) GloVe 與 Word2Vec 完全相同，僅是名字不同
- (B) GloVe 利用整體語料庫中詞與詞共現的統計資料（共現矩陣），透過矩陣分解學習；Word2Vec 則依賴局部上下文窗口
- (C) GloVe 是語境型詞嵌入，能處理多義詞
- (D) GloVe 僅能處理中文

**答案：(B)**
解析：GloVe 使用「全局共現矩陣 + 矩陣分解」；Word2Vec 用「局部上下文窗口」訓練。GloVe 仍屬靜態詞向量，無法處理多義詞。（chunks line 476–482）

---

### Q17
下列關於 FastText 對 OOV（Out-of-Vocabulary）詞彙的處理優勢，何者**正確**？
- (A) FastText 將每個詞切割成 n-gram 子詞，學習子詞向量後加總成詞向量，能處理未見過的新詞
- (B) FastText 完全無法處理 OOV 詞彙
- (C) FastText 採用語境型雙向 Transformer 編碼器
- (D) FastText 僅儲存整詞向量，不支援子詞

**答案：(A)**
解析：FastText 核心 = 子詞（n-gram subwords）向量化 → 即使未見過「nationalization」，也能由 nation/-al/-ization 子詞加總生成。常用 n-gram = 3~6 字母。（chunks line 484–498）

---

### Q18
下列關於「語境型詞嵌入」與「靜態詞嵌入」的比較，何者**錯誤**？
- (A) 靜態詞嵌入（如 Word2Vec、GloVe）每個詞只有一個固定向量，無法區分多義詞
- (B) 語境型詞嵌入（如 ELMo、BERT、GPT）會根據語境動態生成詞向量，可解決多義詞問題
- (C) Word2Vec 中 "bank" 在「金融機構」與「河岸」兩種語境下會產生不同的向量
- (D) 語境型詞嵌入模型大、需高算力與記憶體

**答案：(C)**
解析：Word2Vec 為「靜態」詞嵌入，無論 bank 指金融機構或河岸，向量都相同；語境型詞嵌入（如 BERT、ELMo）才能根據語境動態調整。（chunks line 200、208–216、438）

---

### Q19
下列關於 BERT 與 GPT 預訓練策略的對比，何者**正確**？
- (A) BERT 採單向自迴歸生成；GPT 採雙向 MLM
- (B) BERT 採雙向 Transformer 編碼器 + 遮蔽語言模型（MLM）+ Next Sentence Prediction；GPT 採單向 Transformer 解碼器 + 自迴歸預測（Autoregressive）
- (C) BERT 與 GPT 都是單向模型
- (D) BERT 與 GPT 都採用 RNN 架構，不使用 Transformer

**答案：(B)**
解析：BERT = 雙向 Encoder + MLM/NSP，擅長理解類任務；GPT = 單向 Decoder + 自迴歸生成，擅長生成任務。常見干擾項：把雙向/單向對調。（chunks line 118–120、536–550、618–625）

---

## 第四部分｜深度學習與 Transformer（Q20–Q23）

### Q20
下列關於 Self-Attention（自注意力機制）的敘述，何者**錯誤**？
- (A) 允許模型在處理每個詞時，考慮到序列中所有其他詞的影響
- (B) 實現長距離依賴關係的建模
- (C) 可大幅提升訓練過程的並行性
- (D) 必須像 RNN 一樣逐字（token by token）讀取序列

**答案：(D)**
解析：Self-Attention 可「一次性」處理整個輸入序列，並列計算所有詞與詞之間的注意力分數，與 RNN 逐字讀取的方式完全不同。（chunks line 116、574–582、592–596）

---

### Q21
Transformer 的 Encoder-Decoder 架構主要適用於下列哪類任務？
- (A) 二元分類（如垃圾郵件偵測）
- (B) 序列轉換（Sequence-to-Sequence, Seq2Seq）任務，如機器翻譯、摘要生成、文字改寫
- (C) 影像分類
- (D) 異常偵測

**答案：(B)**
解析：Encoder-Decoder 架構廣泛應用於 Seq2Seq 任務 — Encoder 把輸入序列轉成語意向量，Decoder 接收後逐步產生目標語言。（chunks line 584–590）

---

### Q22
下列關於 Transformer 的「全平行架構」（Fully Parallel Architecture）的描述，何者**正確**？
- (A) Transformer 必須像 RNN 一樣逐步處理每個時間步長
- (B) Transformer 完全平行化的運算設計，使訓練速度大幅提升，更適合在 GPU/TPU 上運行，並能擴展至極大規模語料
- (C) 全平行架構是 LSTM 的特性
- (D) 全平行架構僅能在 CPU 上運行

**答案：(B)**
解析：Transformer 不需逐時間步處理，可同時計算所有詞對之間的注意力 → 訓練快、適合 GPU/TPU、能擴展到 GPT-3、PaLM 等極大規模。（chunks line 592–596）

---

### Q23
下列關於 RNN 在處理長序列時的**主要問題**，何者**正確**？
- (A) RNN 太簡單，無法處理任何序列資料
- (B) RNN 容易遇到梯度消失問題，難以捕捉長距離依賴
- (C) RNN 採用自注意力機制，運算成本過高
- (D) RNN 是並行架構，無法逐步運算

**答案：(B)**
解析：RNN 在長序列中容易發生梯度消失 → 影響長距離依賴建模；LSTM/GRU 引入門控機制改善此問題。（chunks line 98、564）

---

## 第五部分｜預訓練、Prompt 與 RAG/LoRA（Q24–Q27）

### Q24
下列關於 Prompt-based Learning 的敘述，何者**正確**？
- (A) 必須先準備大量標註資料才能使用
- (B) 將任務轉化為類似填空或問答的格式，讓模型直接使用其原有的語言理解能力進行輸出，無需繁重再訓練
- (C) 僅適用於圖像分類任務
- (D) 與 Few-shot / Zero-shot 完全無關

**答案：(B)**
解析：Prompt-based Learning 把任務改寫成填空/問答（如「這條評論是 [情感]。」），讓 LLM 直接用內建語言理解能力輸出，可搭配 Few-shot/Zero-shot。（chunks line 631–636）

---

### Q25
下列關於 Zero-shot Learning 與 Few-shot Learning 的差異，何者**正確**？
- (A) Few-shot 完全不需提供示例；Zero-shot 需提供大量示例
- (B) Few-shot 提供少量示例提升模型理解；Zero-shot 不提供任何任務示例，仍能基於已有語言理解進行推理
- (C) 兩者完全相同
- (D) Zero-shot 需要重新訓練模型；Few-shot 不需要

**答案：(B)**
解析：Few-shot = 給少量示例（如 5 條已標註評論）；Zero-shot = 無任何示例，靠 LLM 既有能力 + Prompt 推理。常見干擾把兩者定義對調。（chunks line 637–651）

---

### Q26
下列關於檢索增強生成（RAG, Retrieval-Augmented Generation）的敘述，何者**正確**？
- (A) RAG 是一種完全不依賴外部資料的純生成方法
- (B) RAG 將「外部知識檢索」與「語言生成」結合，能在生成過程中整合外部資料，提升背景知識要求高之任務的準確性
- (C) RAG 等同於 LoRA 微調技術
- (D) RAG 僅適用於圖像生成

**答案：(B)**
解析：RAG 先檢索外部知識（如 Wikipedia、醫學文獻），再基於檢索結果生成答案，適合需要事實/背景知識的任務（如問答、摘要）。（chunks line 657–659）

---

### Q27
下列關於 LoRA（Low-Rank Adaptation）的敘述，何者**正確**？
- (A) LoRA 必須重訓整個大模型才能適應新任務
- (B) LoRA 透過向原始模型添加輕量級的低秩參數，使模型在不大量重新訓練的情況下高效適應新環境，特別適合在資源有限的邊緣設備上部署
- (C) LoRA 是一種純檢索方法，與微調無關
- (D) LoRA 僅能用於圖像生成任務

**答案：(B)**
解析：LoRA = 向原模型加輕量級低秩參數，僅調整必要參數即可快速適應，大幅減少計算/儲存需求；適合邊緣設備微調大型模型。（chunks line 661–665）

---

## 第六部分｜NLP 應用與風險（Q28–Q30）

### Q28
某客服機器人在輸入「這服務真的好讚 ^_^」（實際為反話／諷刺）後，誤判為正面情感。這屬於下列哪一層風險？
- (A) 資料隱私風險
- (B) 資料授權與版權風險
- (C) 應用層的「語意理解限制」（諷刺、反語、方言、俚語、多義詞造成的誤判）
- (D) 部署與維運風險

**答案：(C)**
解析：語意理解限制屬「應用層風險」，模型對諷刺/反語/方言/俚語/多義詞容易誤判；改善方式 = 結合語境型詞向量（BERT、GPT）+ 常識推理模組。（chunks line 851–867）

---

### Q29
下列關於「模型幻覺（Model Hallucination）」的描述，何者**正確**？
- (A) 模型在生成回應時，產生虛假、誤導性或完全虛構、不基於訓練資料或現實事實的資訊（例：「法國的首都是柏林」）
- (B) 模型總是輸出 100% 正確的事實
- (C) 模型幻覺只發生在影像生成模型上
- (D) 模型幻覺等同於資料隱私洩漏

**答案：(A)**
解析：Model Hallucination = 生成模型輸出語法正確但事實錯誤的內容（如「法國的首都是柏林」應為「巴黎」）。需引入事實檢查、人工審核、回饋機制等。（chunks line 894–909）

---

### Q30
下列關於「去識別化（De-identification）」與「匿名化（Anonymization）」差異的敘述，何者**正確**？
- (A) 兩者完全相同，沒有差異
- (B) 去識別化 = 將可直接辨識的資訊遮蔽或替換，但資料仍可能透過對應代碼重新辨識；匿名化 = 徹底移除或破壞所有可辨識資訊，處理後資料無法再與特定個體連結
- (C) 去識別化 = 徹底刪除所有可辨識資訊；匿名化 = 僅遮蔽部分資訊
- (D) 兩者都不適用於 NLP 資料處理

**答案：(B)**
解析：去識別化（如 Pseudonymization、Generalization、Masking）保留與原個體連結的潛在可能；匿名化（如徹底刪除、Randomization、Aggregation）無法再與個體連結。常見干擾把兩者定義對調。（chunks line 761–779）

---

## 答案速查表

| Q | 答 | Q | 答 | Q | 答 |
|---|---|---|---|---|---|
| 1 | B | 11 | A | 21 | B |
| 2 | D | 12 | B | 22 | B |
| 3 | D | 13 | B | 23 | B |
| 4 | A | 14 | B | 24 | B |
| 5 | B | 15 | A | 25 | B |
| 6 | C | 16 | B | 26 | B |
| 7 | A | 17 | A | 27 | B |
| 8 | A | 18 | C | 28 | C |
| 9 | C | 19 | B | 29 | A |
| 10 | B | 20 | D | 30 | B |

## 命題分布統計

| 章節 | 題號 | 題數 | 重點 |
|---|---|---:|---|
| NLP 基礎概念與發展脈絡 | Q1–Q7 | 7 | NLU/NLG/技術四階段/規則式/N-gram 限制/Transformer/GRU |
| NLP 前處理 | Q8–Q11 | 4 | Lemmatization vs Stemming/Stopword/Tokenization/POS |
| 詞彙向量化與詞嵌入 | Q12–Q19 | 8 | One-hot/tf-idf/N-grams/Word2Vec CBOW vs Skip-gram/GloVe/FastText/語境 vs 靜態/BERT vs GPT |
| 深度學習與 Transformer | Q20–Q23 | 4 | Self-Attention/Encoder-Decoder/全平行架構/RNN 梯度消失 |
| 預訓練、Prompt、RAG/LoRA | Q24–Q27 | 4 | Prompt-based/Zero vs Few-shot/RAG/LoRA |
| NLP 應用與風險 | Q28–Q30 | 3 | 語意理解限制（反語）/Model Hallucination/去識別化 vs 匿名化 |
| **合計** | — | **30** | — |

## 易混淆考點清單

| # | 易混淆對 | 差異 |
|---|---|---|
| 1 | NLU vs NLG | NLU = 理解階段（意圖辨識/NER/情感分析）；NLG = 產出階段（摘要/回應/報告撰寫）（Q2） |
| 2 | Lemmatization vs Stemming | Lemma 用語法 + 字典，保語意；Stem 用裁剪規則，速度快但可能非有效單字（Q8） |
| 3 | TF vs IDF | TF = 詞在「單一文件」中的頻率；IDF = 詞在「整體語料庫」中的稀有程度（Q13） |
| 4 | CBOW vs Skip-gram | CBOW = 上下文預測中心詞，速度快；Skip-gram = 中心詞預測上下文，低頻詞效果佳（Q15） |
| 5 | Word2Vec vs GloVe | Word2Vec = 局部上下文窗口；GloVe = 全局共現矩陣 + 矩陣分解（Q16） |
| 6 | 靜態詞嵌入 vs 語境型詞嵌入 | 靜態（W2V/GloVe/FastText）每詞一向量無法處理多義；語境型（ELMo/BERT/GPT）動態生成可處理多義（Q18） |
| 7 | BERT vs GPT | BERT = 雙向 Encoder + MLM/NSP 擅長理解；GPT = 單向 Decoder + 自迴歸擅長生成（Q19） |
| 8 | Self-Attention vs RNN | Self-Attention 一次處理全序列、並行；RNN 逐字、難捕長距依賴（Q20/Q23） |
| 9 | Zero-shot vs Few-shot | Zero-shot 無示例；Few-shot 給少量示例（Q25） |
| 10 | 去識別化 vs 匿名化 | De-id 可重識別（代碼替換/抽象化/遮罩）；Anonymization 無法重識別（徹底刪除/隨機化/聚合）（Q30） |

---

— 命題：Heiter（2026-05-12）
— 對應教材：科目一 3.1 自然語言處理技術與應用（頁碼 3-3 ~ 3-40）