# L23202 v2 拆頁規劃稿

> 編：Heiter（2026-05-06）
> 目的：原版 19 頁多處單頁擠了 3 個子方法（P07/P14/P16/P17 各 100+ 行），閱讀密度過高。本稿提出 3 種拆頁方案，請欣梅爾選一個再動 prompts.md。

---

## 現況密度分析（從 prompts_to_chunks.md 第 5 節抓出）

| 頁碼 | 主題 | chunks 行數 | 子方法數 | 警戒等級 |
|---|---|---:|---:|---|
| P03 | 線性迴歸 | 94 | 1 | 中 |
| **P04** | **Lasso/嶺迴歸** | **97** | **2** | **中高（雙欄對照）** |
| P05 | SVR | 80 | 1 | 中 |
| P06 | 決策樹迴歸 | 65 | 1 | 中低 |
| 🔴 **P07** | **集成式迴歸** | **133** | **3** | **高** |
| P09 | 邏輯迴歸 | 85 | 1 | 中 |
| P10 | SVM | 89 | 1 | 中 |
| P11 | 決策樹分類器 | 67 | 1 | 中低 |
| P12 | KNN | 86 | 1 | 中 |
| P13 | 樸素貝式 | 86 | 1 | 中 |
| 🔴 **P14** | **集成式分類** | **153** | **3** | **高** |
| 🔴 **P16** | **分群分析** | **109** | **3** | **高** |
| 🔴 **P17** | **降維技術** | **120** | **3** | **高** |
| **P18** | **關聯規則** | **100** | **2** | **中高（雙方法）** |
| **P19** | **異常偵測** | **79** | **2** | **中（雙方法）** |

導讀頁（P01/P02/P08/P15）內容輕，不需拆。

**核心病灶**：4 張高警戒頁（P07/P14/P16/P17）— 3 個獨立演算法塞同一張，每個方法只剩 1/3 版面，根本攤不開。

---

## 三方案

### 🥉 方案 A — 輕拆（只解 3 子方法高警戒 4 張）

只拆 P07 / P14 / P16 / P17，每張拆 3 子方法 → 各自獨立一頁：

| 原頁 | 拆成 | 副標 |
|---|---|---|
| P07 集成式迴歸 | **P07a** Random Forest Regressor / **P07b** Gradient Boosting Regressor / **P07c** XGBoost + LightGBM | Bagging / Boosting / 高效實作 |
| P14 集成式分類 | **P14a** Bagging vs Boosting + Random Forest Classifier / **P14b** Gradient Boosting Classifier / **P14c** XGBoost + LightGBM | 觀念對照 / Boosting / 高效實作 |
| P16 分群分析 | **P16a** k-means / **P16b** 階層式（Agglomerative + Divisive）/ **P16c** DBSCAN | 質心 / 樹狀 / 密度 |
| P17 降維技術 | **P17a** PCA / **P17b** t-SNE / **P17c** UMAP | 線性 / 非線性 KL / 非線性流形 |

**頁數變化**：19 → **27 頁**（淨增 8）
**閱讀密度**：高警戒頁從「3 方法擠 1 頁」變「1 方法 1 頁」 — 每個方法可獨享 6 段結構（定義/公式/指標/假設/適用/限制）
**保留**：演算法 6 段結構不動，每張仍是一個完整單元
**優點**：拆頁邏輯一致（家族切點）、頁數膨脹可控、不破壞單演算法的視覺一致性
**缺點**：P04 雙欄、P18/P19 雙方法仍擠在一頁；如果欣梅爾覺得 P04 Lasso/嶺也太擠，要再加一輪

---

### 🥈 方案 B — 中拆（A + 雙欄/雙方法頁）

方案 A 的 4 張 + 加拆 P04 / P18 / P19（雙欄/雙方法頁）：

| 原頁 | 拆成 | 副標 |
|---|---|---|
| P04 Lasso/嶺迴歸 | **P04a** Lasso（L1 正則化）/ **P04b** Ridge 嶺迴歸（L2 正則化） | L1 特徵選擇 / L2 多重共線性 |
| P18 關聯規則 | **P18a** Apriori / **P18b** FP-Growth | 候選生成 / FP 樹掃描 |
| P19 異常偵測 | **P19a** Isolation Forest / **P19b** One-Class SVM | 隔離法 / 邊界學習 |

新增頁面 3 張 + 方案 A 的 8 張 = 淨增 11 張

**頁數變化**：19 → **30 頁**
**優點**：所有「多方法擠一頁」全部解決，每個演算法都獨享一頁
**缺點**：P04 拆完後 Lasso 跟 Ridge 共通項（5 項評估指標、5 條模型假設）會在兩頁重複；P18/P19 同理

---

### 🥇 方案 C — 演算法 6 段結構也拆

每個演算法本身的 6 段結構拆成 2 頁（理論+應用）：

| 原頁 | 拆成 |
|---|---|
| P03 線性迴歸 | **P03a** 定義+公式+指標 / **P03b** 假設+適用+限制 |
| P05 SVR | **P05a** ε-tube 公式+指標 / **P05b** 假設+適用+限制 |
| ...其他演算法同理 |

**頁數變化**：19 → **40+ 頁**（淨增 20+）
**優點**：每段最寬鬆、每個演算法分「理論層 / 應用層」
**缺點**：頁數膨脹過頭、6 段切兩半的位置不夠自然（評估指標歸理論還是應用？）、PPT 規模從合理變過大

---

## 我的建議：**方案 A**

原因：
1. **病灶集中在 4 張高警戒頁** — 拆完這 4 張即解決 80% 閱讀痛感
2. **演算法本身 6 段結構不擠** — 每個方法 65-95 行 chunks 在一張裡可以排得乾淨（左中上下分區），不是拆頁問題
3. **頁數膨脹可控**（19 → 27）
4. **拆頁邏輯一致**（家族切點：Bagging vs Boosting / 線性 vs 非線性 / 質心 vs 樹狀 vs 密度）
5. 之後如果發現 P04/P18/P19 還是擠，**再升級成方案 B 增 3 張即可** — 是漸進式策略

如果你看完方案 A 樣張覺得還是擠，再進方案 B；除非真的想做極寬鬆教材，否則不建議方案 C。

---

## 方案 A 落地細節（如果你選 A）

### 新檔名規範

```
L23202_p07a_sec2_5_random_forest_regressor.png
L23202_p07b_sec2_5_gradient_boosting_regressor.png
L23202_p07c_sec2_5_xgboost_lightgbm_regressor.png
L23202_p14a_sec3_6_bagging_vs_boosting_rf.png
L23202_p14b_sec3_6_gradient_boosting_classifier.png
L23202_p14c_sec3_6_xgboost_lightgbm_classifier.png
L23202_p16a_sec4_1_kmeans.png
L23202_p16b_sec4_1_hierarchical.png
L23202_p16c_sec4_1_dbscan.png
L23202_p17a_sec4_2_pca.png
L23202_p17b_sec4_2_tsne.png
L23202_p17c_sec4_2_umap.png
```

### 主標題 / 副標規範（沿用 L23302 P03/P04 拆頁實戰原則）

- **主標題保留 chunks 原文**（不改成偽章節編號）：
  - P07a/b/c 主標都寫「2.（5）集成式迴歸」副標標方法名
  - P16a/b/c 主標都寫「4.（1）分群分析」副標標方法名
- **過頁鉤子**：
  - P07a 頁尾「→ 梯度提升迴歸見 P07b」
  - P07b 頁尾「← Random Forest 見 P07a；→ XGBoost+LightGBM 見 P07c」
  - P07c 頁尾「← 序列方法見 P07b；本節結束，下節 P08 監督式學習-分類任務」
  - P14/P16/P17 同理

### chunks 行號分配（已是現有對照表的 sub-range）

| 拆頁 | 對應 chunks 行號 |
|---|---|
| P07a Random Forest Regressor | 約 360-400（chunks 內 RF 段落） |
| P07b Gradient Boosting Regressor | 約 401-440 |
| P07c XGBoost + LightGBM | 約 441-487 |
| ...（其他類推，動 prompts.md 時用 sed/grep 精確抓） |

### TERMS_RULE 覆寫拆分

原 P07 有一大組鎖死術語，拆 3 頁後依方法分派：
- P07a 鎖：`Random Forest Regressor`、`Bootstrap Sample`、特徵重要性
- P07b 鎖：`Gradient Boosting Regressor`、`Weak Learners`、`Early Stopping`、殘差
- P07c 鎖：`XGBoost (eXtreme Gradient Boosting)`、`LightGBM (Light Gradient Boosting Machine)`、`Hessian`、`Level-wise`、`Leaf-wise`、`Histogram-based`

---

## 待你決定

請勾選方案後跟我說，我才會動 v2 的 `prompts.md` + `prompts_to_chunks.md`：

- [ ] 方案 A — 輕拆（19 → 27） ⭐ 我推薦
- [ ] 方案 B — 中拆（19 → 30）
- [ ] 方案 C — 重拆（19 → 40+，不建議）
- [ ] 改寫策略 — 補充：

—
**Heiter 待命中。**