L21102電腦視覺技術與應用
0%

L21102 電腦視覺技術與應用

2CV 基礎概念與發展脈絡
定義 + 五任務 + 三階段演進

2.1CV 定義與跨領域整合

面向內容
核心目標模擬或超越人類視覺,從靜態影像(Images)或動態影片(Videos)中擷取、辨識並解釋語意資訊
跨領域整合影像處理 + 模式辨識 + 機器學習 + 深度學習
歷史起點1960s 初期萌芽;2012 AlexNet 在 ImageNet 突破 → 高速發展期

2.2CV 五大任務類型

任務定義應用例
影像分類
Image Classification
判斷影像屬於哪一類別商品辨識、醫療影像診斷、社群內容分類
物件偵測
Object Detection
辨識影像中是否存在特定物件,並標示其位置(通常以邊界框標示)自動駕駛、安防監控、人流偵測
語意分割
Semantic Segmentation
將影像中每一個像素標註為對應的語意類別(道路、車輛、行人等)城市街景理解、農作物分類、醫學影像處理
實例分割
Instance Segmentation
除了語意標註外,還要分辨同一類別中不同實體(如兩台車分別標註)自駕車多目標辨識、AR 虛實分離、精密製造檢測
影像生成與合成
Image Generation & Synthesis
利用生成模型合成新影像(文字→圖、風格轉換)設計輔助、遊戲開發、風格轉換、產出訓練用資料

2.3三階段技術演進

階段年代主流方法代表
① 特徵工程主導1980s–2010手工特徵萃取 + 傳統機器學習Canny 邊緣偵測 / SIFT / SURF / ORB / 色彩紋理 / SVM·KNN·隨機森林
② CNN 革命2012–2020深度學習自動學特徵 + GPU 算力 + 大量標註資料AlexNet / VGGNet / GoogLeNet / ResNet / DenseNet;應用拓展:YOLO·Faster R-CNN(偵測)/ FCN·U-Net(分割)/ FaceNet(人臉)
③ 多模態與生成式 AI 融合2020–至今跨模態理解 + 創造性輸出CLIP / ViT / DALL·E / Stable Diffusion / Midjourney / SAM

2.4第三階段六個代表模型分工

模型提出方類型關鍵能力
CLIPOpenAI多模態(文+圖)把影像和文字嵌入同一語意空間,做跨模態理解
ViT
Vision Transformer
視覺主幹用 NLP 領域的 Transformer 架構處理影像,突破 CNN 主導
DALL·EOpenAI生成(文→圖)自然語言描述創建圖像,高細節創意豐富
Stable DiffusionStability AI生成(開源)高效精細的圖像生成 + 影像編輯 + 風格變換
Midjourney商業服務生成(藝術風格)具藝術特色與情感表現的圖像,廣用於插畫設計
SAM
Segment Anything Model
Meta影像分割提升分割任務的可遷移性與泛化能力,普適性強
3影像標註與資料前處理
標註 6 種 + 前處理 7 步 + 進階 3 招

3.1影像標註六種方式

任務標註方式說明常用工具
影像分類類別標籤(Label)為整張影像標記單一類別LabelImg、Label Studio
物件偵測邊界框(Bounding Box)標示物件位置與類別CVAT、Roboflow
語意分割每個像素分割標籤影像每一像素皆對應類別LabelMe、SuperAnnotate
實例分割像素遮罩 + 實例 ID區分同類型的多個物件VGG Image Annotator
關鍵點標注身體節點或特定點位座標常用於人體姿態估計COCO Annotator
文字辨識(OCR)區塊框選 + 文字內容每段文字框選並輸入正確字串Tesseract Trainer、LabelImg OCR 模式

3.2標註進階三招

技術做什麼解決什麼
語意 + 實例分割結合同時做像素類別 + 區分實體自動駕駛、醫學影像分析的高準確度需求
Auto-labeling
自動化標註
用已標資料訓的模型自動標,人工只校對大幅減少人力成本
半監督 / 主動學習少量標註 + 大量未標訓練;模型自選「最具挑戰性樣本」給人標標註資料不足時提升效果

3.3標註準則三要點

要點內容
標註一致性標註者遵循統一規則,避免標註風格或標準的差異對模型效果造成負面影響
標註細節與準確度邊界框或像素範圍必須準確無誤
品質控制定期審查、雙重標註機制(兩位標註者同一圖)

3.4影像前處理七步

步驟方法目的
圖像尺寸處理Resize / Padding / Cropping將影像統一為模型輸入所需大小,避免變形或資訊遺失
正規化處理Pixel Normalization將像素值(如 0–255)轉為 0–1 或標準化至均值 0、標準差 1
像素增強直方圖均衡化、Gamma 校正提升影像對比度與亮度,適合低光源或品質差影像
噪聲去除平滑濾波、邊緣保留濾波(高斯、雙邊)減少感測器或拍攝產生的雜訊
色彩空間轉換RGB ↔ Grayscale, HSV依任務調整顏色通道結構,灰階處理常用於簡化輸入
資料擴增
Data Augmentation
翻轉、旋轉、裁剪、模糊、色彩偏移增強泛化能力,對抗過擬合,常與訓練同步進行
序列統一在影片或時間序列中影格取樣應用於動作辨識或影像序列建模任務

3.5進階處理三招

技術做什麼解決什麼
資料清洗去除模糊、重複、標註錯誤或低品質圖片保證訓練資料品質
分層抽樣
Stratified Sampling
按類別比例抽樣資料集不平衡時避免某類過多或過少
圖像編碼圖像 → 張量(Tensor)或嵌入向量(如 CLIP embeddings)把圖像餵進模型學習/預測的關鍵步驟
4CV 關鍵技術與常用模型
影像分類 / 物件偵測 / 影像分割 三類任務 + 代表模型 + IOU

4.1影像分類基礎流程

步驟內容
① 資料收集與標註收集大量標註影像,每張影像所屬類別
② 資料預處理影像縮放至固定尺寸 + 正規化處理
③ 模型選擇常見模型為卷積神經網路(CNN)— 影像分類最佳選擇
④ 訓練與評估訓練集訓練、驗證集評估
⑤ 評估指標準確度(Accuracy)Top-5 Error

4.2CNN 五大基本組件

組件作用關鍵
卷積層
Convolutional Layer
透過卷積核提取影像的局部特徵生成特徵圖(Feature Map)
池化層
Pooling Layer
對特徵圖進行降維如最大池化(Max Pooling);減少計算量並增強泛化能力
激活層
Activation Layer
引入非線性如 ReLU 函數,提升模型表達能力
全連接層
Fully Connected Layer
把提取的特徵整合為一維向量進行最終分類
輸出層輸出 → 類別機率通常使用 Softmax 函數

4.3CNN 四大代表模型

模型提出人/年代特色關鍵突破
LeNetYann LeCun結構簡單,5 層,早期 CNN 模型適用於簡單影像分類,主要用於手寫數字辨識
AlexNet2012 ImageNet8 層,引入 ReLU 激活 + Dropout 正則化深度學習里程碑,奠定 CNN 在 CV 中的地位
VGG強調深度與小卷積核(3×3),層數可達 19 層顯著提升分類準確度
ResNet引入殘差結構(Residual Connection),深度達 152 層解決深層網路梯度消失問題

4.4影像分類三大評估指標

指標定義備註
準確率
Accuracy
預測正確的樣本數 / 總樣本數最常見的分類指標
Top-5 錯誤率
Top-5 Error
多分類情境中,若真實類別位於模型預測的前五名內即視為正確常用於類別數量龐大的資料集(如 ImageNet)
混淆矩陣
Confusion Matrix
展示模型在各類別上的預測分佈便於分析誤分類情況

4.5物件偵測三大代表模型

模型原理強項限制
YOLO
You Only Look Once
基於迴歸的方法,同時預測邊界框與類別速度快,適合即時應用準確度通常稍遜兩階段
Faster R-CNN基於區域提議網路(RPN)生成候選框,再分類與迴歸準確度高速度較慢
SSD
Single Shot Multibox Detector
基於多尺度特徵進行物件檢測速度與準確度之間有較好的平衡

4.6影像分割:語意 vs 實例

類型做什麼關鍵差異
語意分割
Semantic Segmentation
影像中每一像素歸類為預定類別(道路、建築物、行人…)不區分同類別中的不同實例 — 所有「車輛」像素都標「車輛」,不分哪一輛
實例分割
Instance Segmentation
在語意分割基礎上,進一步區分同類別中的不同實體每個物體賦予唯一識別符;結合物體檢測 + 語意分割

4.7三大分割模型

模型架構特色強項適合場景
FCN
Fully Convolutional Network
傳統 CNN + 上採樣層(Upsampling)還原為原始大小端到端訓練、像素級分類通用語意分割
U-Net對稱編碼器/解碼器結構 + 跳躍連接(Skip Connections)從高解析特徵恢復細節,適合不平衡資料專為醫療影像分割設計
Mask R-CNN基於 Faster R-CNN 擴展 + 額外分支預測二進制遮罩實現實例分割,準確標註物體邊界複雜背景的多物體場景

4.8IOU 公式與計算示例

項目定義 / 公式
IOU 定義衡量預測分割區域與真實標籤區域之間的重疊程度IOU = AreaIntersection / AreaUnion
值域範圍0 到 1,越接近 1 表示預測越準確
成功門檻物體檢測中,IOU > 0.50.7 通常視為成功預測
步驟數值(教材示例)
真實標註框(Ground Truth)面積100 平方單位
預測框(Predicted Box)面積80 平方單位
重疊區域(Intersection)40 平方單位
聯集區域(Union)= 100 + 80 − 40140 平方單位
IOU = 40 / 1400.286(教材鎖死值)
5CV 應用情境與實務案例
四大領域:監控與安全 / 醫療 / 智慧製造與零售 / AR-VR-自駕

5.1監控與安全(Surveillance & Security)

項目內容
A. 人臉辨識三步:人臉檢測 → 特徵提取(眼鼻嘴相對位置)→ 比對與辨識
B. 車牌辨識 ANPR
Automatic Number Plate Recognition
交通管理與監控;流程:車牌區域檢測 → 字符辨識(轉可讀文字)
C. 隱私與合規管理遵守 GDPR、HIPAA 等隱私法規;提供資料訪問與刪除權;注意模型偏見問題(不同種族檢測準確度差異)
D. 即時推論
Real-time Inference
監控系統需即時分析與低延遲,要求高效計算資源

5.2醫療影像診斷(Medical Imaging)

面向內容
A. 影像分類CT/MRI 分類為不同診斷結果,提升診斷效率、輔助醫療判斷、減少誤診
B. 影像分割U-Net 將腫瘤、病灶等關鍵區域與背景分離,精確定位病灶
C. 醫療數據與標註醫療影像通常需專業醫師標註,準確標註對模型訓練至關重要
D. 醫療隱私法規處理醫療影像時必須遵守相應的隱私保護法規,確保患者資料安全

5.3智慧製造與零售(Smart Manufacturing & Retail)

項目內容
A. 工業瑕疵偵測產品檢查:表面缺陷、尺寸偏差;用於生產線確保產品品質
B. 商品行為分析零售業追蹤顧客與商品互動、停留時間;優化商品擺放、提高銷售轉換率
C. 邊緣運算與即時回饋邊緣運算:數據處理推向接近數據源的設備,減少延遲;即時回饋:檢測到瑕疵即時通知操作員
D. 顧客行為追蹤熱點圖(Heatmap):分析店內移動路徑與停留時間,幫助優化店鋪佈局

5.4其他應用:AR/VR + 自動駕駛

項目內容
A. AR(擴增實境)追蹤實體物體,疊加虛擬物體或資訊,增強用戶互動體驗
A. VR(虛擬實境)追蹤使用者動作映射到虛擬世界,提供沉浸式體驗
B. 自駕:車道線偵測Lane Detection — 確保車輛正確行駛於車道中
B. 自駕:物件偵測辨識路面障礙物、行人、其他車輛,確保自駕車安全
B. 自駕:多模態融合Multimodal Fusion — 融合雷達、LiDAR(激光雷達)、影像等不同感測器數據;提升環境感知與決策準確度
6CV 技術挑戰與風險
資料隱私 → 偏見可靠度 → 部署維運 三層風險

6.1三層風險總覽

核心議題關鍵字
① 資料隱私與合規PII 個人識別資料、敏感影像(人臉、車牌、住址、兒童)GDPR / 個資法 / 去識別化 / 合法授權 / 最小化原則
② 偏見與模型可靠度資料偏見影響模型公平性與準確度;誤檢與漏檢資料來源不平衡 / 標註偏誤 / 拍攝條件偏差 / Bias Audit
③ 部署與維運風險資源負荷、版本管理、資料漂移邊緣輕量模型 / 資料漂移 / MLOps CI-CD / 回退機制

6.2資料隱私與合規

面向內容
A. 核心挑戰影像含個人識別資料(PII);人臉具高度辨識性屬敏感個資 — 依《個人資料保護法》、GDPR 嚴格管理;敏感影像(車牌、住址、兒童畫面)也須保護
B. 合規做法① 資料匿名化與去識別化(臉部遮蔽、模糊化、遮罩)
② 合法授權(明示告知用途、取得同意)
③ 資料保存與刪除政策(最小化原則,過期自動刪除/加密)
C. 社會倫理爭議公共領域要在「安全防護」與「個人隱私」之間找平衡(如校園人臉門禁未獲學生家長同意 → 引發倫理與法律風險)

6.3偏見與模型可靠度

偏見來源說明
① 資料來源不平衡訓練資料某些族群(膚色、性別、年齡)過於集中 → 模型對其他族群辨識準確度較低
② 標註偏誤人工標註過程中的主觀認知或文化偏見 → 標註結果不一致
③ 拍攝條件偏差攝影角度、光照、解析度差異 → 影響模型泛化能力
失準類型說明 / 教材示例
誤檢 False Positive將健康人誤診為病人 → 不必要的檢查或醫療干預
漏檢 False Negative未辨識存在的目標,例如漏檢工業瑕疵 → 缺陷產品流入市場
提升公平性做法說明
偏見診斷測試(Bias Audit)針對不同族群進行模型行為分析,確認是否存在偏見或不公平現象
數據平衡與重加權過採樣、欠採樣、數據增強,調整資料分佈以減少偏見
可信度評估指標AUC、精確度、召回率等多維度指標全面評估

6.4部署與維運風險

風險說明緩解 / 解決策略
GPU/TPU 資源限制邊緣設備(智慧監控攝像頭)運算資源有限選擇輕量化模型(MobileNetYOLOv5-Nano
批次處理延遲影像串流延遲 → 影響即時性邊緣運算 + 串流優化
版本管理困難更新流程不嚴謹 → 不同版本推論結果不一致 → 業務爭議或誤判MLOps CI/CD 流程、模型版本治理
資料漂移 Data Drift環境或攝影條件變化 → 輸入資料分佈改變 → 模型失效持續監控模型效能與異常情況
部署測試不足未充分驗證 → 忽略場域特殊性(光照、影像模糊)影像品質監測(畫質分析、網路延遲測試)
預設容錯與回退機制:模型異常時自動回退至先前版本或預設邏輯,確保服務不中斷
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L21102 考前複習筆記 · v1.0(2026-05 表格化精簡版)