# 科目一 v4/output4 重做規劃｜L21101 試做方案

> 規劃日期：2026-05-09
> 維護：Heiter
> 拍板人：欣梅爾
> 試做章節：**L21101 自然語言處理技術與應用**

---

## 路徑修正

欣梅爾原話寫「`科目三_學習指引/output4`」，但 **L21101 屬科目一**（路徑 `科目一_學習指引_分章_v4/`），且科目一已有 `output / output2 / output3` 三輪迭代，邏輯上 output4 = 科目一第 4 輪。

**正確路徑**：`科目一_學習指引_分章_v4/output4/L21101_自然語言處理技術與應用/`

如果欣梅爾本意是「將科目三 output3 的格式打包成標竿，套到科目一」— 那目錄一律放在科目一下就對。本 PLAN 以此為基礎。

---

## 為什麼要重做（output3 → output4）

對比舊版 `科目一_學習指引_分章_v4/output3/L21101_自然語言處理技術與應用/prompts.md`（28 頁）發現八大缺點：

| # | 舊 output3 問題 | output3（科目三）標竿做法 |
|---|---|---|
| 1 | **每頁主標題沒寫教材編號**（例 P03「NLP 定義與三個任務層次」） | 主標題寫「2.（1）定義與範疇」「3.（2）詞性標注」對齊教材原文編號 |
| 2 | **沒章節 banner**（P01 沒「第 3.1 節 · XXX」橫幅） | P01 限定章節 banner，後續頁不重複，有強烈章節歸屬感 |
| 3 | **沒共用變數**（每頁 prompt 重貼 STYLE_BASE 全文） | L_CODE / STYLE_BASE / TERMS_RULE / LAYOUT_RULE 變數化，prompt 用 `{變數}` 展開 |
| 4 | **沒 chunks 行號對應** | 每頁標「對應 chunks 行號：XXX-YYY」便於回溯校對 |
| 5 | **沒「教材原詞必須清楚出現」清單** | 每頁列出該頁必呈現的教材術語清單，反向約束艾冉不偷工 |
| 6 | **沒三共通負向約束**（嚴禁畫成其他章節 / 嚴禁過頁鉤子 / 嚴禁右上角頁碼） | 每頁 TERMS_RULE 含三條共通負向約束，杜絕跨章污染與版面跑位 |
| 7 | **缺章節導讀獨立成頁**（直接從 P03=2.(1) 跳，沒 §2 §3 §4 §5 章節導讀總覽） | 每個 §N 開頭獨立一頁章節導讀（含子節入口地圖），形成「章節編號明顯+完整導覽」 |
| 8 | **沒 REVIEW 機制配套**（雖然有 REVIEW.md 但格式鬆散） | 三色 🔴🟡🟢 Boss Review + 整體決議 + 派工書 SOP |

**結論**：欣梅爾原話「每張圖都沒明確寫章節，以及後續完整導覽地圖」對應到 #1 + #2 + #7 三條。修這三條會牽動 #3-#6 全套標準化才合理，所以 output4 一次到位仿科目三 output3 完整標準。

---

## output4 規格（仿科目三 output3 標準）

### 1. 共用變數區（每章 prompts.md 開頭）

```
L_CODE = "L21101"

STYLE_BASE = "請生成一張 16:9、2048x1152 的高解析手寫講義筆記風格投影片，繁體中文必須清楚可讀。背景使用淡米白色方格筆記紙與細方格線。左上角只將 L-code 以淡灰色小字標示，不要加任何框框或底線。不要加入任何右上角頁碼。右下角浮水印「AIOnDaily × 咖啡AI學」，透明度約 35%，像印在紙上並保留安全邊距。整體要活潑、像手寫講義筆記，不要卡片式資訊圖。使用黑色粗手寫標題、青綠底線、暖黃色重點框、紅橘標註、多色手繪圓圈編號與小 icon。所有英文縮寫保留清楚字距。"

TERMS_RULE = "不要改寫為其他英文術語，不要省略教材括號中的英文詞；可補充說明，但教材主詞需保留。**嚴禁畫成 L21102 / L21103 / L21201 / L21202 / L21203 章節**（左上 L-code 寫「L21101」，主題鎖死為自然語言處理技術與應用，不得偏離成電腦視覺、生成式 AI、資料處理等）；**嚴禁出現任何過頁鉤子文字**（「→ 見 PXX」「← 見 §X.Y」「下一頁」「上一頁」「下一節」這類跨頁字樣，每頁靠主標題與副標自帶章節編號自我說明）；**嚴禁出現右上角頁碼**（左上角只放 L_CODE 小字，右上角必須空白，不畫任何頁碼／章節編號／QR code／浮水印）。"

LAYOUT_RULE = "版面要有明確主視覺、2 到 4 個重點區塊、少量關鍵詞與箭頭關係，保留舒適留白。避免密密麻麻小字；公式若出現，請以手寫公式框呈現並保持符號正確。"
```

### 2. P01 限定章節 banner

P01 上方畫淺青色或淺薄荷綠 banner 橫貫全寬，banner 中央粗手寫體寫「**第 3.1 節 · 自然語言處理技術與應用**」（教材編號）。後續 P02-P32 不重複此 banner，僅以左上 L_CODE 作為章節歸屬識別。

### 3. 主標題一律帶教材編號

| 舊 output3 主標題 | output4 新主標題（含教材編號）|
|---|---|
| 「NLP 定義與三個任務層次」 | 「**2.（1）定義與範疇** — NLP 三任務層次」 |
| 「NLP 技術演進總覽」 | 「**2.（2）技術演進脈絡** — 四階段總覽」 |
| 「分詞 Tokenization」 | 「**3.（1）分詞**（Tokenization）」 |
| 「Word2Vec/GloVe/FastText」 | 「**4.（1）C 詞嵌入** — Word2Vec / GloVe / FastText」 |

### 4. 章節導讀獨立成頁

舊版直接從 P03=2.(1) 跳過去沒章節總覽。output4 新增 §2 / §3 / §4 / §5 / §6 五個章節導讀頁，每頁含「該章子節入口地圖」做為下一層導覽。

### 5. 每頁 prompt 結構

```
## Prompt PXX｜N.（M）子節主題

對應 chunks 行號：XXX-YYY

{STYLE_BASE}
教材原詞必須清楚出現：A、B、C、D、E、F...（從 chunks 抓出，含教材括號中的英文）
{TERMS_RULE}
左上角標示「{L_CODE}」。主標題寫「N.（M）子節主題」。版面…（具體版面說明）。{LAYOUT_RULE}

建議輸出檔名：`L21101_pXX_topic_keyword.png`
```

---

## L21101 完整分頁對照表（預估 30 頁）

| # | 主題 | 教材編號 | chunks 行號 | 備註 |
|---|---|---|---|---|
| **P01** | 1. 前言與章節導覽 | §1 | 5-15 | **章節 banner「第 3.1 節 · 自然語言處理技術與應用」**（本頁限定）+ NLP 在 AI 生態系角色 + 全章完整導覽地圖（§2-§6 六個入口）|
| **P02** | §2 NLP 基礎概念與發展脈絡（章節導讀）| §2 | 17-18 | **新增** — 子節入口：定義/演進兩個區塊 |
| P03 | 2.（1）定義與範疇 + NLP 三任務層次 | 2.(1) | 19-44 | 含 Understand/Process/Generate 三層 |
| P04 | 2.（1）NLP / NLU / NLG 關係表 | 2.(1) | 19-44 | 三列分工表 + 互動流程 |
| P05 | 2.（2）技術演進脈絡 — 四階段總覽 | 2.(2) | 45-57 | 4 階段表格（年代/階段/做法/代表）|
| P06 | 2.（2）A 規則式方法（1980-1990）| 2.(2)A | 58-71 | ELIZA / 專家系統 |
| P07 | 2.（2）B 統計語言模型（1990-2010）| 2.(2)B | 72-127 | N-gram / HMM / CRF |
| P08 | 2.（2）C 深度學習模型（2010-2018）| 2.(2)C | 推測 ~110-127 | RNN / LSTM / GRU |
| P09 | 2.（2）D 預訓練語言模型（2018-至今）| 2.(2)D | 推測 ~120-127 | BERT / GPT / RoBERTa / T5 |
| **P10** | §3 NLP 前處理（章節導讀）| §3 | 128-145 | **新增** — 為何重要 + 三子節入口 |
| P11 | 3.（1）分詞（Tokenization）| 3.(1) | 146-151 | |
| P12 | 3.（2）詞性標注（POS Tagging）| 3.(2) | 152-157 | |
| P13 | 3.（3）詞形還原（Lemmatization）與詞幹提取（Stemming）| 3.(3) | 158-179 | 含停用詞處理 |
| **P14** | §4 NLP 關鍵技術與常用模型（章節導讀）| §4 | 180-181 | **新增** — 三子節入口（關鍵技術發展/深度學習應用/預訓練）|
| P15 | 4.（1）NLP 關鍵技術發展總覽 | 4.(1) | 182-203 | 三層概念入口（語境型/分布式/詞嵌入）|
| P16 | 4.（1）A 語境型 vs 非語境型表示 | 4.(1)A | 204-217 | 對比表 |
| P17 | 4.（1）B 分布式 vs 非分布式表示 | 4.(1)B | 218-225 | 對比表 |
| P18 | 4.（1）C 詞嵌入入門 — One-hot & BoW | 4.(1)C | 226-265 | |
| P19 | 4.（1）C TF-IDF | 4.(1)C | 266-280 | 公式 |
| P20 | 4.（1）C N-gram 語言模型 | 4.(1)C | 281-450 | |
| P21 | 4.（1）C Word2Vec（CBOW + Skip-gram）| 4.(1)C | 449-486 | 兩架構對比 |
| P22 | 4.（1）C GloVe / FastText | 4.(1)C | 487-555 | |
| P23 | 4.（2）深度學習在 NLP 中的應用 — RNN / LSTM / GRU 比較 | 4.(2) | 556-590 | 三模型對比表 |
| P24 | 4.（2）Transformer 核心架構（Self-Attention）| 4.(2) | 591-607 | 注意力機制 |
| P25 | 4.（3）預訓練語言模型 — ELMo / BERT / GPT | 4.(3) | 608-650 | 三模型對比 |
| P26 | 4.（3）Prompt-based 方法與小樣本學習 + RAG / LoRA | 4.(3) | 651-668 | 微調 vs Prompt |
| **P27** | §5 NLP 應用情境與案例（章節導讀）| §5 | 669-672 | **新增** — 六類應用入口 |
| P28 | 5. NLP 六類應用實例 | §5 | 673-738 | 文字分類/情感/對話/生成/翻譯/NER |
| **P29** | §6 NLP 技術挑戰與風險（章節導讀）| §6 | 739-744 | **新增** — 三層風險入口 |
| P30 | 6. 資料層風險（隱私/標註品質/授權版權）| 6 資料層 | 745-820 | 含去識別化 vs 匿名化技術補充 |
| P31 | 6. 模型層 + 應用層風險（部署維運/生成內容/模型幻覺）| 6 模型+應用層 | 821-912 | Model Hallucination 重點 |

**新增章節數**：5 頁章節導讀（P02 / P10 / P14 / P27 / P29）
**結構變化**：28 → 31 頁（+3 頁，因為深度學習從原 1 頁拆 P08+P23+P24 共 3 頁；風險從 2 頁拆 P29+P30+P31 共 3 頁；補章節導讀 5 頁）

---

## 試做流程（先試 L21101，OK 後沿用 L21102 / L21103 / L21201-L21204 等）

1. ✅ **盤底**：找到 chunks/L21101.txt + 舊 output3 規格（已完成）
2. ✅ **PLAN.md**（本檔）+ 對照表（已完成）
3. **欣梅爾拍板** ⬅ **目前在這**
4. 寫 `output4/L21101_*/prompts.md`（共用變數 + 31 頁逐頁 prompt）
5. commit prompts.md
6. 派艾冉 31 張全章生圖（_v1 後綴，因為這是新章節）
7. 跑 ipas-slide-review（如有需要）
8. Boss Review → 修正波 → 視覺驗收 → 定稿
9. 通過後沿用同套 SOP 到 L21102 / L21103 / L21201 / L21202 / L21203 / L21204

---

## 與舊 output3（科目一）的差異 1 句話總結

> output4 把舊 output3 從「**主題式單頁拼盤**」升級為「**教材編號對齊 + 五個章節導讀獨立成頁 + 完整導覽地圖**」的標準化版本，並引入科目三 output3 的共用變數 / 三共通負向約束 / chunks 行號對應 / 教材原詞必呈現清單等四項驗收機制。

---

**Heiter 規劃稿。等欣梅爾拍板後開動 prompts.md。**