L21301數據準備與模型選擇
0%

L21301 數據準備與模型選擇

2資料收集與清理
資料來源(內部 + 外部)+ 清理 + 品質檢核

2.A.1內部資料來源(5 類)

類型內容用途
① ERP
Enterprise Resource Planning
銷售、庫存、採購、財務等企業內部核心業務系統公司營運的基礎資料來源
② CRM
Customer Relationship Management
顧客互動紀錄、服務歷程與回饋客戶分群與行為預測
③ 機台資料
Machine Data
生產機台、設備、工廠自動化系統 — 運轉狀態、操作參數、故障紀錄、維護歷程製造業 — 生產排程優化、異常偵測、良率分析、預測保養;智慧製造(Smart Manufacturing)的關鍵資產
④ 使用者使用行為資料POS / Web/App 紀錄 / IoT 裝置 — 軟體使用路徑、功能點擊熱區、登入與停留時間SaaS 業者追蹤產品黏著度與使用效率;消費型產品做功能優化與升級設計
⑤ 內部報表與流程紀錄作業流程、內部稽核、法遵紀錄金融、醫療、政府等高度管制產業的風險管理與合規審查

2.A.2外部資料來源(3 類)

類型內容用途 / 注意
① 開放資料政府開放資料平台、社群媒體 API、氣象機構、商業資料平台以程式介面自動擷取最新資料;應用於政策分析、市場研究、風險預測
② Web Scraping
網頁爬蟲
從網站自動擷取網頁內容 — 價格資訊、評論資料、新聞文章市場競爭分析、輿情監測、文本探勘;需特別注意網站條款與資料使用合規性
③ 商業資料庫與數據供應商RefinitivStatistaExperian 等專業資料平台授權購買的市場資料、財務資料、信用評等;金融投資、企業徵信、產業趨勢分析

2.B.1三大清理任務

任務常見方法 / 工具備註
① 缺失值
Missing Values
平均數 / 中位數填補(Mean/Median Imputation
前後值填補(Forward/Backward Fill
插值法(Interpolation
若缺失比例過高,則應考慮刪除該欄位或使用模型推估填補
② 重複值
Duplicate Values
針對主鍵欄位(如顧客編號、交易編號)檢查;使用 pandas / Spark DataFrame.drop_duplicates() 方法去重處理
③ 異常值
Outliers
統計方法:Z-scoreIQR(Interquartile Range)
機器學習模型:Isolation ForestLOF(Local Outlier Factor)
異常值檢測與處理

2.B.2五大資料品質評估指標

指標定義檢核要點
① 完整性
Completeness
資料是否完整是否缺少關鍵欄位
② 一致性
Consistency
資料欄位間邏輯是否一致像是年齡欄位不應為負數
③ 準確性
Accuracy
資料值是否準確反映真實世界的狀況
④ 即時性
Timeliness
資料是否是最新的尤其是動態變化的數據
⑤ 唯一性
Uniqueness
資料是否有重複或衝突特別是主鍵欄位
3資料標注與特徵工程
特徵處理流程 / 特徵選擇與降維 / 自動特徵工程

3.A.1數值特徵轉換

方法定義適用場景
正規化
Normalization
將數值轉換至 0 到 1 之間;常見方法是將最小值轉換為 0、最大值轉換為 1避免由於不同特徵的單位差異造成模型學習偏誤
標準化
Standardization
將數值轉換為平均數為 0、標準差為 1 的分布;通常使用 Z-score需要計算梯度的模型(如線性迴歸、SVM 支持向量機)特別有效

3.A.2類別特徵處理

方法做什麼適用
獨熱編碼
One-hot Encoding
將類別轉為二進位欄位無序分類變數(如紅 / 黃 / 藍)
標籤編碼
Label Encoding
將類別轉為整數有序類別(如高中 → 學士 → 碩士)

3.A.3時間與文字特徵

類型做什麼方法
時間戳處理從時間戳中擷取週期性特徵星期幾 / 上午-下午 / 工作日-週末
文字處理從文字欄位抽取關鍵詞,或轉換為數值形式TF-IDF(Term Frequency-Inverse Document Frequency)
詞向量(Word Embeddings

3.B.1特徵選擇三法

方法原理用途
資訊增益
Information Gain
衡量特徵在預測中帶來的資訊量挑出對預測最有用的特徵
皮爾森相關係數
Pearson Correlation Coefficient
衡量數值特徵之間的線性相關性剔除高度相關的冗餘特徵
L1 正則化
Lasso
透過懲罰模型複雜度來選擇最具影響力的特徵常用於線性模型中

3.B.2降維三方法

方法原理用途
PCA
主成分分析
找到資料中方差最大的方向來減少維度,保留大部分資料訊息適用於高維資料 — 減少計算負擔、提高模型效能
t-SNE非線性降維常用於視覺化資料分佈,便於人為觀察特徵空間的分類趨勢
UMAP非線性降維(流形學習)同上 — 視覺化高維資料分佈

3.C.1AutoML 平台與五大核心功能

核心功能說明
① 自動特徵創建透過資料轉換、組合等方式生成新特徵 — 將日期拆分為年/月/日/星期、基於現有特徵做加法/乘法/對數轉換、多項式特徵、時間序列滯後特徵
② 自動篩選有用特徵透過隨機森林(Random Forest)L1 正則化(Lasso) 評估特徵貢獻,自動刪除冗餘或低貢獻特徵
③ 特徵組合與互動作用檢測自動測試各特徵組合(Interaction)對預測結果的影響,發現隱藏關聯
④ 適應不同資料集類別型自動選編碼方法(One-hotTarget Encoding);缺失資料自動選填補方式(均值 / 預測填補)
⑤ 基於模型的反饋進行特徵選擇不斷訓練和驗證多個模型,根據反饋自動調整特徵集

3.C.2AutoML 三大優勢

優勢說明
① 加速資料科學流程大幅縮短從原始資料到模型訓練的時間,資料科學家可專注於分析與優化模型本身
② 降低技術門檻對機器學習知識較少的使用者也能完成高效的特徵工程與模型建構,促進更多業界 AI 應用
③ 高模型效能快速評估大量特徵組合,找到最有助於提高模型性能的特徵,提升預測準確性
4模型選擇策略(六大模型類別)
A. 迴歸 / B. 分類 / C. 非監督 / D. 深度學習 / E. 強化式 / F. 生成式

4.A監督式學習 — 迴歸任務(Regression)

演算法原理特性
① 線性迴歸
Linear Regression
建立自變量與因變量之間的線性關係最簡單;適用於資料具有線性關係的情況
② 決策樹迴歸
Decision Tree Regression
基於樹狀結構進行迴歸預測適用於非線性;解釋性強;可能過度擬合
③ 隨機森林迴歸
Random Forest Regression
多棵決策樹的平均預測結果提高準確度、減少過度擬合的風險
④ 梯度提升樹
Gradient Boosting Regression
集成學習,多次迭代提升模型準確度複雜資料集表現良好

4.B監督式學習 — 分類任務(Classification)

演算法原理特性
① 邏輯迴歸
Logistic Regression
透過 Sigmoid 函數將預測值轉為機率二元或多元分類;特徵與類別之間線性可分的情況
② 決策樹分類
Decision Tree
以條件分支的方式進行分類解釋性良好;非線性與混合型特徵;容易過度擬合
③ 隨機森林分類
Random Forest
結合多棵決策樹進行分類投票提升準確度、降低過擬合;適合高維度與複雜結構資料
④ 支持向量機
SVM
尋找最佳超平面以分隔不同類別高維資料或邊界清晰表現良好;核函數可處理非線性
⑤ K 最近鄰
KNN(K-Nearest Neighbors)
根據鄰近資料的類別進行預測簡單直觀;對資料量與維度敏感;適合小型資料集
⑥ 梯度提升樹分類
Gradient Boosting
集成學習,逐步修正錯誤多數分類問題中表現穩定優異

4.C非監督式學習(Unsupervised Learning)

演算法原理特性
① K-means
K-means Clustering
將資料點分配至最接近的中心點(Cluster Centroid),劃分出 K 個群集簡單高效;須事先給定 K 值;對初始點與異常值敏感
② DBSCAN
Density-Based Spatial Clustering of Applications with Noise
基於密度的分群,能發現任意形狀的群集,自動標離群點為雜訊(Noise)不需預先給定群集數;適合含雜訊或密度變化明顯的資料
③ 階層式分群
Hierarchical Clustering
建立樹狀層級關係(Dendrogram),自上而下或自下而上逐層劃分無需指定群集數;適合探索資料分群層級結構
④ PCA
Principal Component Analysis
常見的降維方法,將原始變數轉換成若干主成分以保留最大變異用於資料視覺化與特徵壓縮

4.D深度學習(Deep Learning)

架構處理 / 機制常用於
① CNN
卷積神經網路(Convolutional Neural Network)
處理圖像資料與空間特徵萃取;多層卷積 + 池化 + 非線性激活函數;自動辨識局部特徵並保留位置不變性人臉辨識、工業檢測、自動駕駛
② RNN
遞迴神經網路(Recurrent Neural Network)
處理時間序列(語音、文字、感測器資料);能記住前一步的輸出資訊;傳統 RNN 面臨長期依賴問題,實務上多採用 LSTM(長短期記憶)或 GRU(門控遞迴單元)語音 / 文字 / 時序感測
③ Transformer透過自注意力(Self-Attention)機制建構語意關聯;NLP 領域主流;代表 BERT(雙向編碼器表示)、GPT(生成式預訓練轉換器)語意理解、生成式任務、跨模態學習

4.E強化式學習(Reinforcement Learning, RL)

演算法原理適用 / 備註
① Q-learning基於值函數,透過表格或近似函數學習每個狀態-行為對的預期回報(Q 值),根據最大 Q 值選擇動作適用於離散動作空間與較小的環境
② DQN
Deep Q Network
結合深度學習與 Q-learning — 用深度神經網路近似 Q 函數,能處理高維感知輸入(如圖像)Atari 遊戲中 AI 打破人類紀錄的重要里程碑
③ Policy Gradient
策略梯度
直接學習從狀態到行為的機率分佈,最大化期望報酬來更新策略代表方法:REINFORCEActor-Critic
④ PPO
Proximal Policy Optimization 近端策略優化
策略梯度方法的改良版本,平衡「策略更新幅度」與「學習效率」,避免過大變動導致不穩定由 OpenAI 提出;廣泛應用於遊戲、機器人操作

4.F生成式模型(Generative Models)

演算法機制強項 / 痛點
① GANs
生成對抗網路(Generative Adversarial Networks)
兩個神經網路(生成器判別器)對抗訓練 — 生成器產生偽造樣本、判別器判斷真偽,雙方互相提升強:圖像生成、人臉合成、風格轉換
弱:訓練不穩定、可能出現模式崩潰(Mode Collapse)
② VAE
變分自編碼器(Variational Autoencoder)
最大化資料潛在機率分佈下的下界進行訓練強:潛在空間結構良好、適合異常偵測、語音重建、隱含變數建模
弱:生成樣本相對平滑,缺乏銳利細節
③ Diffusion Models
擴散模型
透過逐步加入與移除噪聲的方式訓練,學習資料轉換的反向過程強:生成圖像品質明顯優勢 — 代表 DALL·E 2Stable Diffusion
弱:生成速度慢、運算成本高
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L21301 考前複習筆記 · v1.0(2026-05-03)