L23401數據隱私、安全與合規

L23401 數據隱私、安全與合規

2數據隱私風險的辨識與評估

三類風險 + 系統化評估流程（A/B/C/D 四法）

2.1三類隱私風險（依識別威脅程度）

風險類型	定義 / 教材範例	關鍵特性
① 直接識別風險	含可直接辨識特定個人的欄位例：姓名、身分證號碼、電子郵件、聯絡電話、金融帳號	多屬個人識別資訊（Personally Identifiable Information, PII）；GDPR / CCPA / PDPA 均視為高度敏感，企業治理列最高優先
② 間接識別風險（準識別資訊）	單一欄位無法辨識，但多項資訊交叉比對仍可推導身份例：性別、出生年月、職業、地理位置、消費習慣、瀏覽紀錄	準識別資訊（Quasi-identifiers）；台灣人口密度較低或特定職業 / 族群較少的地區風險更顯著
③ 再識別風險	即便已去識別化（移除姓名、代碼替代），仍可能因外部資料的豐富性與可取得性被重新還原身分	開放數據、資料共享、AI 模型訓練場景應高度重視

2.2隱私風險評估 4 法（A/B/C/D）

編號	方法	用途
A	資料盤點與分類（Data Map）	隱私風險管理的首要步驟 — 建立資料清冊、做開放與敏感度分級
B	隱私影響評估（Privacy Impact Assessment, PIA）	系統性分析資料處理活動對個人隱私的影響，並提出風險緩解策略
C	風險矩陣與風險等級	用「可能性 × 影響程度」二維矩陣排序，集中資源處理高風險
D	再識別模擬與滲透測試（Re-identification Simulation）	對開放、共享、AI 平台資料集驗證匿名化效果

2.3A. 資料盤點與分類（Data Map）

面向	內容
定義	建立完整的資料清冊或資料地圖（Data Map），記錄每一類資料的詳細資訊，是隱私風險管理的首要步驟
7 大記錄欄位（教材鎖死）	① 資料來源（表單、感測器、外部購買等） ② 處理流程（收集、整理、分析、儲存、傳輸、銷毀） ③ 欄位型態與內容（欄位意義、資料格式） ④ 接觸單位或使用部門（誰可存取） ⑤ 流通路徑（組織內 / 外的流動與交換） ⑥ 儲存位置（內部伺服器 / 雲端 / 第三方） ⑦ 保留期限（保存多久、過期如何處置）

面向

內容

定義

建立完整的資料清冊或資料地圖（Data Map），記錄每一類資料的詳細資訊，是隱私風險管理的首要步驟

7 大記錄欄位
（教材鎖死）

① 資料來源（表單、感測器、外部購買等）
② 處理流程（收集、整理、分析、儲存、傳輸、銷毀）
③ 欄位型態與內容（欄位意義、資料格式）
④ 接觸單位或使用部門（誰可存取）
⑤ 流通路徑（組織內 / 外的流動與交換）
⑥ 儲存位置（內部伺服器 / 雲端 / 第三方）
⑦ 保留期限（保存多久、過期如何處置）

層級分類（兩層）

層級	分類	說明
開放層級（Access Level）	公開資料	對外公開、無涉個資（如政府統計、年報）
開放層級（Access Level）	非公開資料	僅限內部使用，需特定權限存取
敏感度層級（Sensitivity Level）由低到高	一般資料	不涉個資或機敏業務，外洩風險低
	機密資料	商業機密、內部策略、合約等
	個人資料	可直接 / 間接識別個人，需依個資法嚴格管理
	高度敏感個資	涉及健康、財務、族群、宗教、政治傾向，外洩恐造成重大損害，常受法律特別規範

2.4B. 隱私影響評估 PIA（5 步驟）

面向	內容
全名	隱私影響評估（Privacy Impact Assessment, PIA）— 國際間廣泛採用的隱私治理工具，是許多國家隱私法規的要求
5 步驟流程（a→e）	a. 資料流程盤點 — 釐清「收集→處理→儲存→使用→刪除」全流程 b. 風險辨識 — 找出可能對個人隱私造成風險的環節 c. 影響程度分析 — 評估若風險發生對個人 / 組織的法律、營運、信譽衝擊 d. 策略擬定 — 擬定技術性或管理性的防範措施降低機率 / 衝擊 e. 治理責任分工 — 明確界定內部部門 / 角色的責任與權限

面向

內容

全名

隱私影響評估（Privacy Impact Assessment, PIA）— 國際間廣泛採用的隱私治理工具，是許多國家隱私法規的要求

5 步驟流程
（a→e）

a. 資料流程盤點 — 釐清「收集→處理→儲存→使用→刪除」全流程
b. 風險辨識 — 找出可能對個人隱私造成風險的環節
c. 影響程度分析 — 評估若風險發生對個人 / 組織的法律、營運、信譽衝擊
d. 策略擬定 — 擬定技術性或管理性的防範措施降低機率 / 衝擊
e. 治理責任分工 — 明確界定內部部門 / 角色的責任與權限

2.5C. 風險矩陣與風險等級

面向	內容
風險矩陣（Risk Matrix）	風險視覺化工具，將風險發生的可能性（Likelihood）與風險影響程度（Impact）交叉評估，形成二維矩陣常見格式：3x3 或 5x5
風險等級公式	`風險等級（Risk Level）= 發生機率（Probability）× 影響程度（Impact）`
發生機率（Probability）	① 低（Rare） ② 中（Possible） ③ 高（Likely）
影響程度（Impact）	① 輕微（Minor） ② 重大（Major） ③ 災難性（Critical）

風險等級	因應策略
低風險（Low Risk）	可接受、可監控
中風險（Medium Risk）	需規劃因應對策
高風險（High Risk）	應優先處理，必要時迴避或延後導入

2.6D. 再識別模擬與滲透測試

面向	內容
全名	再識別模擬與滲透測試（Re-identification Simulation）— 對計畫開放、共享或應用於 AI 模型平台的資料集，驗證匿名化 / 去識別化措施有效性
2 種測試方法	① 交叉比對測試 — 利用公開社群資料、政府開放資料、商業數據進行比對 ② 欄位組合分析 — 評估多個欄位組合在特定情境下是否具備推導能力
3 項對策（風險偏高時）	① 強化匿名化或去識別化技術（加大模糊化程度、降低精細度） ② 調整資料釋出範圍或限制使用情境 ③ 審慎評估是否適合對外公開該筆資料集

3隱私保護與匿名化技術實務應用

基礎匿名化 5 招 + 進階 PETs 3 家族（K-L-T / FL / HE）

3.1基礎匿名化技術 5 招

技術	定義 / 範例（教材鎖死）	應用 / 優點	限制
① 遮蔽 Masking	以符號或虛構數據替換敏感欄位的部分或全部內容王大明 → 王○○ A123456789 → A1*******89	應用：報表展示、非正式分析、測試環境數據生成優點：實作簡單、快速；能保留資料格式（如電話長度）	僅隱藏部分資訊，搭配其他資料仍可能被推測還原
② 雜湊處理 Hashing	對身分類欄位（帳號、Email）做單向雜湊（如 SHA-256），產生固定長度、不可逆字串，用於比對而非顯示	應用：匿名化用戶 ID、跨資料庫比對、資料去重優點：不可逆、支援一致性比對，安全性高	若原始資料種類有限（如短 ID），易受彩虹表攻擊；不適合用於數值分析
③ 泛化 Generalization	降低資料精度 1987-03-12 → 1980 年代台北市信義區基隆路 → 台北市	應用：公開數據集、統計分析、降低精細定位風險優點：簡單有效，能保留資料的分佈特性	精度降低可能影響分析準確度（如年齡分群分析）
④ 分桶 Bucketing	將連續數值轉換為區間收入 58,000 元 → 50K–60K 年齡 32 歲 → 30–39 歲	應用：統計報表、人口統計分析、降低數值精確度風險優點：保留數據趨勢，減少個體識別風險	分桶設計過細，仍可能造成再識別風險
⑤ 隨機擾動 Noise Injection	為數值資料加入隨機噪聲（如高斯噪聲）薪資 50,000 → 50,123	應用：數值型資料分享、統計分析優點：保留整體統計特性（如平均數、標準差）	噪聲幅度過大影響分析、幅度過小難以保護 — 需精心設計

3.2進階隱私強化技術 PETs（3 家族）

3.2aK-匿名 / L-多樣性 / T-接近性（K-L-T 三層遞進）

技術	條件 / 防護目標
K-匿名 K-Anonymity	確保每筆紀錄至少與其他 K-1 筆紀錄在準識別欄位（如年齡、性別）上相同 → 降低個體識別風險
L-多樣性 L-Diversity	在 K-匿名基礎上，要求每個群組內敏感欄位（如疾病）必須具有至少 L 種不同值 → 避免屬性推測
T-接近性 T-Closeness	要求群組內敏感欄位的分佈與全體資料集相近 → 防止因分佈偏差而推測個體特徵

面向	內容
應用場景	公開數據集、醫療研究、金融風險分析
優點	在結構化資料中保護效果佳，實務中易於實施
限制	① 計算複雜度較高 ② K 值過大可能導致資料精度降低 ③ 對非結構化資料（文字、影像）的適用性有限

3.2b聯邦學習（Federated Learning, FL）

面向	內容
定義	模型在各個客戶端（使用者裝置 / 不同機構）本地進行訓練，只將模型參數更新（如梯度）傳回中央伺服器，避免原始資料集中存放或傳輸
應用場景	醫療聯盟（跨院數據建模）、手機鍵盤輸入預測
優點	保留資料在本地，降低外洩風險；支援跨機構合作
限制	① 通訊成本高 ② 可能面臨參數逆向推導的攻擊風險（從梯度反推原始資料）

3.2c同態加密（Homomorphic Encryption, HE）

面向	內容
定義	允許在加密資料上直接執行運算（如加法、乘法），解密後結果與在明文上運算相同，確保計算過程中資料全程保密
應用場景	雲端 AI 模型訓練、金融風控計算、醫療研究中的外包運算
優點	即使數據外包處理，也無需解密，提升機密保障；基於密碼學提供強安全保證
限制	計算效能較低，尤其是完全同態加密（Fully Homomorphic Encryption, FHE），需高效能硬體支援

3.3基礎 vs 進階對照

層面	基礎資料匿名化技術	進階隱私強化技術 PETs
處理層級	資料層（單表 / 單欄位處理）	演算法 / 密碼學層（系統設計）
典型方法	Masking / Hashing / Generalization / Bucketing / Noise Injection	K-Anonymity / L-Diversity / T-Closeness / Federated Learning / Homomorphic Encryption
主要場景	報表展示、測試環境、跨資料庫比對	醫療聯盟、雲端 AI 訓練、金融風控、跨院建模
主要威脅	欄位推測、彩虹表	再識別攻擊、生成式 AI 記憶個資、參數逆向推導

4合規實務建議（5 原則）

合法 / 最小化 / 去識別 / 透明 / 跨境 — 教材鎖死五大主題

4.1合法來源與告知同意

面向	內容
合法來源	蒐集個人資料前，必須確認資料來源合法（直接向當事人 / 透過第三方），審視取得過程合規性
有效同意三要素（教材鎖死）	① 自由性 — 不可因服務限制、經濟利益或壓力而被迫同意 ② 明確性與具體性 — 清楚載明蒐集項目、利用目的、範圍、保存期間，不可使用籠統條款 ③ 可撤回性 — 當事人應有權隨時撤回同意，企業須說明撤回方式與後續影響
替代合法依據（無法取得同意時）	① 履行契約 ② 法定義務 ③ 正當利益

4.2資料最小化與目的限制

面向	內容
必要性原則	蒐集資料時僅收集實現 AI 訓練或預期功能所需的最低限度資料，避免無關資訊進入系統
目的限制	不得將資料用於未經告知或未獲同意的其他目的，即使該用途對企業有商業價值
敏感資料比例原則	對健康、族群、宗教信仰等敏感資料，須謹慎評估蒐集必要性與比例原則，並尋求替代方式（如使用泛化後的統計資料）

4.3去識別化或匿名化處理

面向	內容
適用情境	資料計畫對外共享、用於模型發布、研究公開、與第三方合作時，優先採取去識別化或匿名化技術
實作要點	① 去識別化應確保無法輕易回推個人身份 ② 結合再識別風險測試驗證效果 ③ 不同法規對匿名化標準認定有差異，須保留風險評估紀錄 ④ 必要時先對敏感欄位進行泛化、分桶或差分隱私處理，平衡隱私保護與資料效用

4.4透明度與紀錄保存

面向	內容
紀錄保存類別（教材鎖死 6 項）	① 資料來源及收集方式 ② 資料蒐集與利用的法律基礎 ③ 資料處理過程、傳輸及外部共享情況 ④ 受影響的資料類別與當事人群體 ⑤ 所採用的保護技術與風險緩解措施
對外文件	隱私聲明、模型說明文件，讓使用者瞭解其資料如何被用於 AI 訓練
內部稽核	定期進行內部稽核與政策檢視，確保所有作業符合最新法規及業界標準

4.5跨境傳輸規範

面向	內容
觸發場景	AI 訓練或服務涉及跨國資料流通時，需確認是否觸及不同國家 / 地區的個資傳輸限制
GDPR 規範（教材原文）	GDPR（歐盟通用資料保護規則）規定：將歐盟居民個資移轉至歐盟以外國家，需符合： ① 足夠保護措施 ② 標準合約條款 ③ 或其他合法機制
檢視項目（教材鎖死 3 項）	① 明確定義跨境資料流動的範圍、用途與國家 ② 評估接收國的隱私保護水準及潛在法律風險 ③ 制定跨境傳輸協議或標準條款，並保存紀錄以供監管機關查驗

5跨章關鍵對照

高頻混淆題型 — 一表壓平

5.1三類隱私風險對照

風險類型	核心特徵	典型欄位	關鍵名詞
直接識別	單一欄位即可辨識	姓名、身分證、Email、電話、金融帳號	PII（Personally Identifiable Information）
間接識別	多欄位交叉推導	性別、出生年月、職業、地理位置、消費習慣、瀏覽紀錄	Quasi-identifiers（準識別資訊）
再識別	去識別化後仍被外部資料還原	—（任何匿名化資料）	Re-identification；常見於開放數據、資料共享、AI 訓練

5.2基礎匿名化 5 招對照

技術	本質	致命限制
Masking 遮蔽	符號替換	搭配其他資料仍可推測還原
Hashing 雜湊	SHA-256 單向	彩虹表攻擊；不適合數值分析
Generalization 泛化	降低精度	精度損失影響分析（年齡分群）
Bucketing 分桶	區間化	分桶過細仍有再識別風險
Noise Injection 隨機擾動	加高斯噪聲	幅度需精心設計（過大失真 / 過小無效）

5.3進階 PETs 3 家族對照

家族	核心機制	典型場景	主要限制
K-匿名 / L-多樣性 / T-接近性	準識別欄位群組化 → 敏感欄位 L 種值 → 分佈接近全體	公開數據集、醫療研究、金融風險分析	計算複雜；K 值過大損失精度；對非結構化資料適用性有限
聯邦學習 Federated Learning	資料留本地，只傳模型參數更新 / 梯度	醫療聯盟（跨院建模）、手機鍵盤輸入預測	通訊成本高；參數逆向推導攻擊風險
同態加密 Homomorphic Encryption	加密資料上直接做加法 / 乘法運算，解密結果同明文	雲端 AI 訓練、金融風控、醫療外包	計算效能低，FHE 需高效能硬體

5.4合規 5 原則對照

原則	核心關鍵字	易考點
合法來源與告知同意	自由性 / 明確性與具體性 / 可撤回性	替代依據：履行契約 / 法定義務 / 正當利益
資料最小化與目的限制	必要性原則 + 比例原則	不可挪用未告知用途；敏感資料（健康 / 族群 / 宗教）用泛化後統計資料替代
去識別化或匿名化處理	對外共享前處理 + 再識別風險測試	不同法規匿名化標準不一，須保留風險評估紀錄
透明度與紀錄保存	5 項紀錄 + 2 對外文件 + 內部稽核	對外：隱私聲明 / 模型說明文件
跨境傳輸規範	GDPR / 接收國保護水準 / 標準合約條款	明確跨境流動範圍 / 用途 / 國家 + 制定協議保存紀錄

5.5三大國際個資法對照

法規	管轄	本章重點
GDPR General Data Protection Regulation 《一般資料保護規則》	歐盟	本章 4.5．跨境傳輸 — 移轉歐盟個資至境外需足夠保護措施 / 標準合約條款
CCPA California Consumer Privacy Act 《加州消費者隱私法案》	美國加州	視 PII 為高度敏感資訊；台灣企業跨境美國用戶資料需檢視
PDPA Personal Data Protection Act 《個人資料保護法》	台灣（亦含新加坡等）	視 PII 為高度敏感資訊；本地處理個資的主要依據

5.6適用 vs 限制 — 高頻陷阱

技術 / 概念	常見「適用」	常見「限制」陷阱
Masking 遮蔽	報表展示、非正式分析、測試環境	仍可與其他資料推測還原
Hashing 雜湊	匿名化用戶 ID、跨資料庫比對、資料去重	彩虹表攻擊；不適合數值分析
Generalization 泛化	公開數據集、統計分析、降低定位精度	精度損失影響分析準確度
Bucketing 分桶	統計報表、人口統計分析	分桶過細仍有再識別風險
Noise Injection 隨機擾動	數值型資料分享、統計分析	噪聲幅度過大 / 過小都不行
K-匿名 / L-多樣性 / T-接近性	結構化資料、公開數據集、醫療研究	計算複雜；K 大損失精度；對非結構化資料適用性有限
聯邦學習 FL	醫療聯盟跨院建模、手機鍵盤輸入預測	通訊成本高；參數逆向推導攻擊
同態加密 HE	雲端 AI 訓練、金融風控、醫療外包	計算效能低，FHE 需高效能硬體
PIA	系統性隱私治理、許多國家法規要求	非一次性 — 須持續迭代
跨境傳輸	跨國 AI 服務 / 訓練	需評估接收國保護水準；保存紀錄供監管查驗

AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23401 考前複習筆記 · v1.0（2026-05 表格化精簡版）