# L23301 prompts.md ↔ chunks/L23301.txt 行號對照（output3 版）

本文件記錄 `output3/L23301_數據準備與特徵工程/prompts.md` 中每一頁 prompt 對應到 `chunks/L23301.txt` 的行號範圍。

## output3 設計原則

- **章節命名與切頁嚴格沿用 chunks 原文 `#` heading**，每頁 1 對 1 對應一個原始章節（含節導讀 + 各 `（X）` 子小節）。
- **不重新命名、不合併、不拆分、不跳過**。
- 子小節 `# （X）...` 標題前綴父章節編號（例如 `2.（1）缺失值處理`）以提升可讀性，但主詞不動。
- **特例：** chunks 的 `# 2.` 為殘缺標題（PDF 抓取時遺失章名），仍獨立成章節導讀頁；主標寫「2.」，副標補「資料清理」（由其下五個子小節推得章名）；不破壞「主標沿用 chunks 原文」原則。

## 對照表

| Prompt | 主標題 | L23301.txt 行號 | 對應教材小節 |
|---|---|---:|---|
| P01 | 1. 前言與章節導覽 | 7–11 | `# 1.前言與章節導覽` |
| P02 | 2.（資料清理） | 13 | `# 2.` 章節導讀（chunks 殘缺，副標補「資料清理」） |
| P03 | 2.（1）缺失值處理 | 15–39 | `# （1）缺失值處理`（Missing Value、刪除法 / 填補法 / Hot Deck / KNN / 預測模型 / 缺失指標編碼） |
| P04 | 2.（2）異常值偵測與處理（Outlier Detection & Handling） | 41–69 | `# （2）異常值偵測與處理（Outlier Detection & Handling）`（Z-score / IQR / 箱型圖 / Isolation Forest / LOF / 移除 / 截尾 / 標記保留） |
| P05 | 2.（3）重複樣本與資料一致性檢查 | 71–83 | `# （3）重複樣本與資料一致性檢查`（主鍵比對、單位/格式標準化） |
| P06 | 2.（4）資料型別轉換與欄位格式調整 | 85–93 | `# （4）資料型別轉換與欄位格式調整`（類型轉換、時間資料解析） |
| P07 | 2.（5）清理流程的策略考量 | 95–109 | `# （5）清理流程的策略考量`（樹模型 vs 線性/神經網路敏感度、Data Lineage） |
| P08 | 3. 特徵選擇與降維方法 | 111–115 | `# 3.特徵選擇與降維方法` 章節導讀 |
| P09 | 3.（1）特徵選擇方法 | 117–142 | `# （1）特徵選擇方法`（Filter / Wrapper / Embedded 三大類） |
| P10 | 3.（2）降維方法 | 144–162 | `# （2）降維方法`（PCA / LDA / t-SNE & UMAP / SVD） |
| P11 | 4. 特徵轉換與資料標準化 | 164–166 | `# 4.特徵轉換與資料標準化` 章節導讀 |
| P12 | 4.（1）資料尺度調整 | 168–188 | `# （1）資料尺度調整`（Min-Max / Z-score / Robust） |
| P13 | 4.（2）分佈轉換 | 190–199 | `# （2）分佈轉換`（Log / 平方根立方根 / Box-Cox & Yeo-Johnson） |
| P14 | 4.（3）類別資料處理 | 201–231 | `# （3）類別資料處理`（Label / One-hot / Target Encoding） |
| P15 | 4.（4）時間與週期性資料轉換 | 233–245 | `# （4）時間與週期性資料轉換`（拆解時間欄位 + sin/cos 週期編碼） |
| P16 | 5. 資料增強 | 247–274 | `# 5.資料增強`（Image / Text / Time-series / Tabular / SMOTE） |
| P17 | 6. 特徵工程策略 | 276–299 | `# 6.特徵工程策略`（依任務類型 / 依模型性質 / 隱含結構 / 時間序列 四項策略） |

合計 **17 頁**。

## 注意事項

### 1. 本地行號 vs PDF 全域行號

- 本對照表使用的行號是 `chunks/L23301.txt` 內的**本地行號**（從 1 開始算）。
- chunks 檔頭 metadata 寫「行數範圍：4149–4447」，這是 PDF 全域行號。
- **換算公式：** PDF 全域行號 = 4149 + 本地行號 − 1（即本地行號 +4148）。
  - 例：本地 7–11 → PDF 全域 4155–4159；本地 276–299 → PDF 全域 4423–4446。

### 2. 行號覆蓋率

- 7–299 行幾乎完整覆蓋（除前 6 行檔頭 metadata + 主章標題、第 14 行空行、各章節間空行，及 300–303 收尾空白行）。
- 各頁行號**連續無斷層**：每章內部 `（X）` 子小節間的空行已分入相鄰頁，不存在漏掉的教材內容段落。
- 主章 heading（`# 3.`、`# 4.`、`# 5.`、`# 6.`）與其導讀內文均落在所屬導讀頁的行號區間內。

### 3. 密集頁提醒

本章**沒有**單頁 ≥ 50 行的密集頁，無需主動拆頁。最高密度頁為：
- **P14 4.（3）類別資料處理**：31 行（含 Label / One-hot / Target 三種編碼方法）— 已要求版面切 3 欄並列；先生圖看效果，若不可讀再評估拆 P14a / P14b。
- **P16 5. 資料增強**：28 行（含 Image / Text / Time-series / Tabular 四種型態 + SMOTE）— 已要求 2×2 四格版面；同上原則。
- **P17 6. 特徵工程策略**：24 行（4 項策略）— 已要求 2×2 四格版面。

如第一輪生圖出現「字塞滿、可讀性差」，再回頭評估拆頁；目前依「一頁一 chunks heading」原則保守處理。

### 4. TERMS_RULE 覆寫頁清單

共 **3 頁**有 inline `**TERMS_RULE 覆寫：**`：

- **P03 2.（1）缺失值處理** — 鎖死「資料缺失（Missing Value）」「刪除法（Deletion）」「填補法（Imputation）」「K 最近鄰（KNN）填補」「Hot Deck」中英對照詞，不可只寫單邊。
- **P12 4.（1）資料尺度調整** — 鎖死「Min-Max Normalization（最小 - 最大正規化）」「Z-score Standardization（Z 分數標準化）」「Robust Scaling（穩健標準化）」三組中英對照詞，不可只寫英文或只寫中文。
- **P14 4.（3）類別資料處理** — 鎖死「Label Encoding（標籤編碼）」「One-hot Encoding（獨熱編碼）」「Target Encoding（目標編碼/平均編碼）」「Ordinal Variables」「Nominal Variables」「High Cardinality」必須完整保留。

其餘 14 頁套用通用 `TERMS_RULE`（不改寫英文術語、不省略括號中英對照詞）。

### 5. 章節導讀頁（P02 / P08 / P11）內容偏輕

- P02（chunks `# 2.`）只有一行殘缺標題；P08 / P11 各有一短段導讀文字。
- 已在 prompt 內加上「指向子小節入口」的設計讓版面有東西可呈現，避免空白。
- 若日後嫌導讀頁佔頁數，可合進該章 `（1）` 子小節（會降為 14 頁）。但目前保留以維持「一頁一 chunks heading」原則。

### 6. P02 特例說明

- chunks 第 13 行為 `# 2.`（章名遺失，PDF 切割殘缺），按硬性鎖死規則 1「主標題嚴格沿用 chunks 原文」處理：主標寫「2.」，副標補「資料清理」（由其下 5 個子小節：缺失值處理 / 異常值偵測 / 重複樣本 / 資料型別轉換 / 清理流程策略 推得章名）。
- 此處理不重新命名（沒改主標）、不跳過（仍給導讀頁），符合規則精神。

## 用途

- **校對：** 每頁 prompt 是否漏掉教材原詞，照行號回去抓教材原文補。
- **擴/減頁決策：** 若 P14 / P16 / P17 第一輪生圖密度過高，可依本表行號邊界決定拆頁切點（例如 P14 拆 Label+One-hot / Target，或 P16 拆 Image+Text / Time-series+Tabular）。
- **跨章節參考：** 之後 L23302+ 章節可套同樣的「章節嚴格沿用 chunks heading + 密集小節必要時拆子頁」原則編 prompts.md + prompts_to_chunks.md。
- **與 L23102 互通：** 本檔 P10 降維方法（PCA / LDA / SVD）與 L23102 P11–P12 矩陣分解可交叉參考；本章重點在「方法選用情境」，L23102 重點在「分解原理與公式」。

— 編表：Heiter（2026-05-05）