L23401 數據隱私、安全與合規
2數據隱私風險的辨識與評估
三類風險 + 系統化評估流程(A/B/C/D 四法)
2.1三類隱私風險(依識別威脅程度)
| 風險類型 | 定義 / 教材範例 | 關鍵特性 |
|---|---|---|
| ① 直接識別風險 | 含可直接辨識特定個人的欄位 例:姓名、身分證號碼、電子郵件、聯絡電話、金融帳號 | 多屬 個人識別資訊(Personally Identifiable Information, PII);GDPR / CCPA / PDPA 均視為高度敏感,企業治理列最高優先 |
| ② 間接識別風險 (準識別資訊) | 單一欄位無法辨識,但多項資訊交叉比對仍可推導身份 例:性別、出生年月、職業、地理位置、消費習慣、瀏覽紀錄 | 準識別資訊(Quasi-identifiers);台灣人口密度較低或特定職業 / 族群較少的地區風險更顯著 |
| ③ 再識別風險 | 即便已去識別化(移除姓名、代碼替代),仍可能因外部資料的豐富性與可取得性被重新還原身分 | 開放數據、資料共享、AI 模型訓練場景應高度重視 |
2.2隱私風險評估 4 法(A/B/C/D)
| 編號 | 方法 | 用途 |
|---|---|---|
| A | 資料盤點與分類(Data Map) | 隱私風險管理的首要步驟 — 建立資料清冊、做開放與敏感度分級 |
| B | 隱私影響評估(Privacy Impact Assessment, PIA) | 系統性分析資料處理活動對個人隱私的影響,並提出風險緩解策略 |
| C | 風險矩陣與風險等級 | 用「可能性 × 影響程度」二維矩陣排序,集中資源處理高風險 |
| D | 再識別模擬與滲透測試(Re-identification Simulation) | 對開放、共享、AI 平台資料集驗證匿名化效果 |
2.3A. 資料盤點與分類(Data Map)
| 面向 | 內容 |
|---|---|
| 定義 | 建立完整的資料清冊或資料地圖(Data Map),記錄每一類資料的詳細資訊,是隱私風險管理的首要步驟 |
| 7 大記錄欄位 (教材鎖死) | ① 資料來源(表單、感測器、外部購買等) ② 處理流程(收集、整理、分析、儲存、傳輸、銷毀) ③ 欄位型態與內容(欄位意義、資料格式) ④ 接觸單位或使用部門(誰可存取) ⑤ 流通路徑(組織內 / 外的流動與交換) ⑥ 儲存位置(內部伺服器 / 雲端 / 第三方) ⑦ 保留期限(保存多久、過期如何處置) |
層級分類(兩層)
| 層級 | 分類 | 說明 |
|---|---|---|
| 開放層級 (Access Level) | 公開資料 | 對外公開、無涉個資(如政府統計、年報) |
| 非公開資料 | 僅限內部使用,需特定權限存取 | |
| 敏感度層級 (Sensitivity Level) 由低到高 | 一般資料 | 不涉個資或機敏業務,外洩風險低 |
| 機密資料 | 商業機密、內部策略、合約等 | |
| 個人資料 | 可直接 / 間接識別個人,需依個資法嚴格管理 | |
| 高度敏感個資 | 涉及健康、財務、族群、宗教、政治傾向,外洩恐造成重大損害,常受法律特別規範 |
2.4B. 隱私影響評估 PIA(5 步驟)
| 面向 | 內容 |
|---|---|
| 全名 | 隱私影響評估(Privacy Impact Assessment, PIA)— 國際間廣泛採用的隱私治理工具,是許多國家隱私法規的要求 |
| 5 步驟流程 (a→e) | a. 資料流程盤點 — 釐清「收集→處理→儲存→使用→刪除」全流程 b. 風險辨識 — 找出可能對個人隱私造成風險的環節 c. 影響程度分析 — 評估若風險發生對個人 / 組織的法律、營運、信譽衝擊 d. 策略擬定 — 擬定技術性或管理性的防範措施降低機率 / 衝擊 e. 治理責任分工 — 明確界定內部部門 / 角色的責任與權限 |
2.5C. 風險矩陣與風險等級
| 面向 | 內容 |
|---|---|
| 風險矩陣 (Risk Matrix) | 風險視覺化工具,將風險發生的可能性(Likelihood)與風險影響程度(Impact)交叉評估,形成二維矩陣 常見格式:3x3 或 5x5 |
| 風險等級公式 | 風險等級(Risk Level)= 發生機率(Probability)× 影響程度(Impact) |
| 發生機率 (Probability) | ① 低(Rare) ② 中(Possible) ③ 高(Likely) |
| 影響程度 (Impact) | ① 輕微(Minor) ② 重大(Major) ③ 災難性(Critical) |
| 風險等級 | 因應策略 |
|---|---|
| 低風險(Low Risk) | 可接受、可監控 |
| 中風險(Medium Risk) | 需規劃因應對策 |
| 高風險(High Risk) | 應優先處理,必要時迴避或延後導入 |
2.6D. 再識別模擬與滲透測試
| 面向 | 內容 |
|---|---|
| 全名 | 再識別模擬與滲透測試(Re-identification Simulation)— 對計畫開放、共享或應用於 AI 模型平台的資料集,驗證匿名化 / 去識別化措施有效性 |
| 2 種測試方法 | ① 交叉比對測試 — 利用公開社群資料、政府開放資料、商業數據進行比對 ② 欄位組合分析 — 評估多個欄位組合在特定情境下是否具備推導能力 |
| 3 項對策 (風險偏高時) | ① 強化匿名化或去識別化技術(加大模糊化程度、降低精細度) ② 調整資料釋出範圍或限制使用情境 ③ 審慎評估是否適合對外公開該筆資料集 |
3隱私保護與匿名化技術實務應用
基礎匿名化 5 招 + 進階 PETs 3 家族(K-L-T / FL / HE)
3.1基礎匿名化技術 5 招
| 技術 | 定義 / 範例(教材鎖死) | 應用 / 優點 | 限制 |
|---|---|---|---|
| ① 遮蔽 Masking | 以符號或虛構數據替換敏感欄位的部分或全部內容 王大明 → 王○○ A123456789 → A1*******89 | 應用:報表展示、非正式分析、測試環境數據生成 優點:實作簡單、快速;能保留資料格式(如電話長度) | 僅隱藏部分資訊,搭配其他資料仍可能被推測還原 |
| ② 雜湊處理 Hashing | 對身分類欄位(帳號、Email)做單向雜湊(如 SHA-256),產生固定長度、不可逆字串,用於比對而非顯示 | 應用:匿名化用戶 ID、跨資料庫比對、資料去重 優點:不可逆、支援一致性比對,安全性高 | 若原始資料種類有限(如短 ID),易受彩虹表攻擊;不適合用於數值分析 |
| ③ 泛化 Generalization | 降低資料精度 1987-03-12 → 1980 年代 台北市信義區基隆路 → 台北市 | 應用:公開數據集、統計分析、降低精細定位風險 優點:簡單有效,能保留資料的分佈特性 | 精度降低可能影響分析準確度(如年齡分群分析) |
| ④ 分桶 Bucketing | 將連續數值轉換為區間 收入 58,000 元 → 50K–60K 年齡 32 歲 → 30–39 歲 | 應用:統計報表、人口統計分析、降低數值精確度風險 優點:保留數據趨勢,減少個體識別風險 | 分桶設計過細,仍可能造成再識別風險 |
| ⑤ 隨機擾動 Noise Injection | 為數值資料加入隨機噪聲(如高斯噪聲) 薪資 50,000 → 50,123 | 應用:數值型資料分享、統計分析 優點:保留整體統計特性(如平均數、標準差) | 噪聲幅度過大影響分析、幅度過小難以保護 — 需精心設計 |
3.2進階隱私強化技術 PETs(3 家族)
3.2aK-匿名 / L-多樣性 / T-接近性(K-L-T 三層遞進)
| 技術 | 條件 / 防護目標 |
|---|---|
| K-匿名 K-Anonymity | 確保每筆紀錄至少與其他 K-1 筆紀錄在準識別欄位(如年齡、性別)上相同 → 降低個體識別風險 |
| L-多樣性 L-Diversity | 在 K-匿名基礎上,要求每個群組內敏感欄位(如疾病)必須具有至少 L 種不同值 → 避免屬性推測 |
| T-接近性 T-Closeness | 要求群組內敏感欄位的分佈與全體資料集相近 → 防止因分佈偏差而推測個體特徵 |
| 面向 | 內容 |
|---|---|
| 應用場景 | 公開數據集、醫療研究、金融風險分析 |
| 優點 | 在結構化資料中保護效果佳,實務中易於實施 |
| 限制 | ① 計算複雜度較高 ② K 值過大可能導致資料精度降低 ③ 對非結構化資料(文字、影像)的適用性有限 |
3.2b聯邦學習(Federated Learning, FL)
| 面向 | 內容 |
|---|---|
| 定義 | 模型在各個客戶端(使用者裝置 / 不同機構)本地進行訓練,只將模型參數更新(如梯度)傳回中央伺服器,避免原始資料集中存放或傳輸 |
| 應用場景 | 醫療聯盟(跨院數據建模)、手機鍵盤輸入預測 |
| 優點 | 保留資料在本地,降低外洩風險;支援跨機構合作 |
| 限制 | ① 通訊成本高 ② 可能面臨參數逆向推導的攻擊風險(從梯度反推原始資料) |
3.2c同態加密(Homomorphic Encryption, HE)
| 面向 | 內容 |
|---|---|
| 定義 | 允許在加密資料上直接執行運算(如加法、乘法),解密後結果與在明文上運算相同,確保計算過程中資料全程保密 |
| 應用場景 | 雲端 AI 模型訓練、金融風控計算、醫療研究中的外包運算 |
| 優點 | 即使數據外包處理,也無需解密,提升機密保障;基於密碼學提供強安全保證 |
| 限制 | 計算效能較低,尤其是完全同態加密(Fully Homomorphic Encryption, FHE),需高效能硬體支援 |
3.3基礎 vs 進階對照
| 層面 | 基礎資料匿名化技術 | 進階隱私強化技術 PETs |
|---|---|---|
| 處理層級 | 資料層(單表 / 單欄位處理) | 演算法 / 密碼學層(系統設計) |
| 典型方法 | Masking / Hashing / Generalization / Bucketing / Noise Injection | K-Anonymity / L-Diversity / T-Closeness / Federated Learning / Homomorphic Encryption |
| 主要場景 | 報表展示、測試環境、跨資料庫比對 | 醫療聯盟、雲端 AI 訓練、金融風控、跨院建模 |
| 主要威脅 | 欄位推測、彩虹表 | 再識別攻擊、生成式 AI 記憶個資、參數逆向推導 |
4合規實務建議(5 原則)
合法 / 最小化 / 去識別 / 透明 / 跨境 — 教材鎖死五大主題
4.1合法來源與告知同意
| 面向 | 內容 |
|---|---|
| 合法來源 | 蒐集個人資料前,必須確認資料來源合法(直接向當事人 / 透過第三方),審視取得過程合規性 |
| 有效同意 三要素 (教材鎖死) | ① 自由性 — 不可因服務限制、經濟利益或壓力而被迫同意 ② 明確性與具體性 — 清楚載明蒐集項目、利用目的、範圍、保存期間,不可使用籠統條款 ③ 可撤回性 — 當事人應有權隨時撤回同意,企業須說明撤回方式與後續影響 |
| 替代合法依據 (無法取得同意時) | ① 履行契約 ② 法定義務 ③ 正當利益 |
4.2資料最小化與目的限制
| 面向 | 內容 |
|---|---|
| 必要性原則 | 蒐集資料時僅收集實現 AI 訓練或預期功能所需的最低限度資料,避免無關資訊進入系統 |
| 目的限制 | 不得將資料用於未經告知或未獲同意的其他目的,即使該用途對企業有商業價值 |
| 敏感資料 比例原則 | 對健康、族群、宗教信仰等敏感資料,須謹慎評估蒐集必要性與比例原則,並尋求替代方式(如使用泛化後的統計資料) |
4.3去識別化或匿名化處理
| 面向 | 內容 |
|---|---|
| 適用情境 | 資料計畫對外共享、用於模型發布、研究公開、與第三方合作時,優先採取去識別化或匿名化技術 |
| 實作要點 | ① 去識別化應確保無法輕易回推個人身份 ② 結合再識別風險測試驗證效果 ③ 不同法規對匿名化標準認定有差異,須保留風險評估紀錄 ④ 必要時先對敏感欄位進行泛化、分桶或差分隱私處理,平衡隱私保護與資料效用 |
4.4透明度與紀錄保存
| 面向 | 內容 |
|---|---|
| 紀錄保存類別 (教材鎖死 6 項) | ① 資料來源及收集方式 ② 資料蒐集與利用的法律基礎 ③ 資料處理過程、傳輸及外部共享情況 ④ 受影響的資料類別與當事人群體 ⑤ 所採用的保護技術與風險緩解措施 |
| 對外文件 | 隱私聲明、模型說明文件,讓使用者瞭解其資料如何被用於 AI 訓練 |
| 內部稽核 | 定期進行內部稽核與政策檢視,確保所有作業符合最新法規及業界標準 |
4.5跨境傳輸規範
| 面向 | 內容 |
|---|---|
| 觸發場景 | AI 訓練或服務涉及跨國資料流通時,需確認是否觸及不同國家 / 地區的個資傳輸限制 |
| GDPR 規範 (教材原文) | GDPR(歐盟通用資料保護規則)規定:將歐盟居民個資移轉至歐盟以外國家,需符合: ① 足夠保護措施 ② 標準合約條款 ③ 或其他合法機制 |
| 檢視項目 (教材鎖死 3 項) | ① 明確定義跨境資料流動的範圍、用途與國家 ② 評估接收國的隱私保護水準及潛在法律風險 ③ 制定跨境傳輸協議或標準條款,並保存紀錄以供監管機關查驗 |
5跨章關鍵對照
高頻混淆題型 — 一表壓平
5.1三類隱私風險對照
| 風險類型 | 核心特徵 | 典型欄位 | 關鍵名詞 |
|---|---|---|---|
| 直接識別 | 單一欄位即可辨識 | 姓名、身分證、Email、電話、金融帳號 | PII(Personally Identifiable Information) |
| 間接識別 | 多欄位交叉推導 | 性別、出生年月、職業、地理位置、消費習慣、瀏覽紀錄 | Quasi-identifiers(準識別資訊) |
| 再識別 | 去識別化後仍被外部資料還原 | —(任何匿名化資料) | Re-identification;常見於開放數據、資料共享、AI 訓練 |
5.2基礎匿名化 5 招對照
| 技術 | 本質 | 致命限制 |
|---|---|---|
| Masking 遮蔽 | 符號替換 | 搭配其他資料仍可推測還原 |
| Hashing 雜湊 | SHA-256 單向 | 彩虹表攻擊;不適合數值分析 |
| Generalization 泛化 | 降低精度 | 精度損失影響分析(年齡分群) |
| Bucketing 分桶 | 區間化 | 分桶過細仍有再識別風險 |
| Noise Injection 隨機擾動 | 加高斯噪聲 | 幅度需精心設計(過大失真 / 過小無效) |
5.3進階 PETs 3 家族對照
| 家族 | 核心機制 | 典型場景 | 主要限制 |
|---|---|---|---|
| K-匿名 / L-多樣性 / T-接近性 | 準識別欄位群組化 → 敏感欄位 L 種值 → 分佈接近全體 | 公開數據集、醫療研究、金融風險分析 | 計算複雜;K 值過大損失精度;對非結構化資料適用性有限 |
| 聯邦學習 Federated Learning | 資料留本地,只傳模型參數更新 / 梯度 | 醫療聯盟(跨院建模)、手機鍵盤輸入預測 | 通訊成本高;參數逆向推導攻擊風險 |
| 同態加密 Homomorphic Encryption | 加密資料上直接做加法 / 乘法運算,解密結果同明文 | 雲端 AI 訓練、金融風控、醫療外包 | 計算效能低,FHE 需高效能硬體 |
5.4合規 5 原則對照
| 原則 | 核心關鍵字 | 易考點 |
|---|---|---|
| 合法來源與告知同意 | 自由性 / 明確性與具體性 / 可撤回性 | 替代依據:履行契約 / 法定義務 / 正當利益 |
| 資料最小化與目的限制 | 必要性原則 + 比例原則 | 不可挪用未告知用途;敏感資料(健康 / 族群 / 宗教)用泛化後統計資料替代 |
| 去識別化或匿名化處理 | 對外共享前處理 + 再識別風險測試 | 不同法規匿名化標準不一,須保留風險評估紀錄 |
| 透明度與紀錄保存 | 5 項紀錄 + 2 對外文件 + 內部稽核 | 對外:隱私聲明 / 模型說明文件 |
| 跨境傳輸規範 | GDPR / 接收國保護水準 / 標準合約條款 | 明確跨境流動範圍 / 用途 / 國家 + 制定協議保存紀錄 |
5.5三大國際個資法對照
| 法規 | 管轄 | 本章重點 |
|---|---|---|
| GDPR General Data Protection Regulation 《一般資料保護規則》 | 歐盟 | 本章 4.5.跨境傳輸 — 移轉歐盟個資至境外需足夠保護措施 / 標準合約條款 |
| CCPA California Consumer Privacy Act 《加州消費者隱私法案》 | 美國加州 | 視 PII 為高度敏感資訊;台灣企業跨境美國用戶資料需檢視 |
| PDPA Personal Data Protection Act 《個人資料保護法》 | 台灣(亦含新加坡等) | 視 PII 為高度敏感資訊;本地處理個資的主要依據 |
5.6適用 vs 限制 — 高頻陷阱
| 技術 / 概念 | 常見「適用」 | 常見「限制」陷阱 |
|---|---|---|
| Masking 遮蔽 | 報表展示、非正式分析、測試環境 | 仍可與其他資料推測還原 |
| Hashing 雜湊 | 匿名化用戶 ID、跨資料庫比對、資料去重 | 彩虹表攻擊;不適合數值分析 |
| Generalization 泛化 | 公開數據集、統計分析、降低定位精度 | 精度損失影響分析準確度 |
| Bucketing 分桶 | 統計報表、人口統計分析 | 分桶過細仍有再識別風險 |
| Noise Injection 隨機擾動 | 數值型資料分享、統計分析 | 噪聲幅度過大 / 過小都不行 |
| K-匿名 / L-多樣性 / T-接近性 | 結構化資料、公開數據集、醫療研究 | 計算複雜;K 大損失精度;對非結構化資料適用性有限 |
| 聯邦學習 FL | 醫療聯盟跨院建模、手機鍵盤輸入預測 | 通訊成本高;參數逆向推導攻擊 |
| 同態加密 HE | 雲端 AI 訓練、金融風控、醫療外包 | 計算效能低,FHE 需高效能硬體 |
| PIA | 系統性隱私治理、許多國家法規要求 | 非一次性 — 須持續迭代 |
| 跨境傳輸 | 跨國 AI 服務 / 訓練 | 需評估接收國保護水準;保存紀錄供監管查驗 |
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L23401 考前複習筆記 · v1.0(2026-05 表格化精簡版)