L21103生成式AI技術與應用

0%

L21103 生成式 AI 技術與應用

2生成式 AI 基礎概念與演進脈絡

定義與範疇 + 五大應用類型 + 技術演進五階段

2.1定義：生成式 AI vs 鑑別式 AI

比較面向	生成式 AI（Generative AI）	鑑別式 AI（Discriminative AI）
① 目標	生成新的資料樣本，例如文本、圖像、音訊等	進行分類、辨識或預測，將資料歸類或分配標籤
② 工作方式	學習資料的分佈並生成新的樣本	學習資料的特徵，並依此進行預測或分類
③ 主要應用	內容創作（文本生成、圖像生成、語音合成等）	分類問題（圖像分類、語音辨識、疾病預測等）
④ 模型例子	GPT、VAE、GAN、Diffusion Models	SVM、決策樹、隨機森林、Logistic 迴歸
⑤ 訓練方式	學習資料分佈的結構並生成新資料樣本	基於已有資料進行辨識與分類
⑥ 結果	生成新的數據或創造性內容	辨識資料的類別或預測目標變數
⑦ 輸出	新的資料點或內容，如圖像、文字等	類別標籤或數值預測
⑧ 例子	ChatGPT（文本生成）、DALL·E（圖像生成）	ResNet（圖像分類）、HMM（語音辨識）

2.2五大應用類型

類型／英文	代表平台 / 模型	能力
① 文本生成 Text Generation	ChatGPT、Claude	對話、摘要、文章撰寫及翻譯
② 圖像生成 Image Generation	DALL·E、Midjourney、Stable Diffusion	根據文字描述生成高解析度的圖像
③ 語音與音樂生成 Audio Generation	ElevenLabs、MusicLM	合成語音或創作音樂
④ 影片生成 Video Generation	Runway、Sora	根據文字描述自動生成影片片段
⑤ 多模態生成 Multimodal Generation	Gemini、GPT-4V、CLIP	整合文字、圖像、語音及動作的輸入與輸出

2.3整套技術體系（架構 + 應用策略）

類別	中文／英文	備註
模型架構	大規模語言模型 LLM, Large Language Model	—
	擴散模型 Diffusion Models	—
	對抗生成網路 GAN, Generative Adversarial Network	—
	變分自編碼器 VAE, Variational Autoencoder	—
應用策略	提示工程 Prompt Engineering	引導模型輸出
	微調 Fine-tuning	領域客製化
	少樣本學習 Few-shot Learning	少量範例觸發能力

2.4技術演進五階段（A → E）

階段	年代	核心技術	代表模型	限制 / 特徵
A. 初期階段	2013–2015	VAE、RNN	VAE	生成模糊、訓練困難
B. GAN 時代	2014–2020	對抗訓練	DCGAN、StyleGAN	高寫實性、不穩定性
C. Transformer 崛起	2017 年起	自注意力機制	BERT、GPT	高效語境建模、NLP 主導
D. 擴散與多模態	2020 年起	擴散模型、多模態對齊	Stable Diffusion、DALL·E	高品質、多模態整合
E. 巨型模型與 Agent 化	2023 年起	巨型參數、工具整合	GPT-4、Gemini	自主性、任務導向

2.5A 階段：編碼器 - 解碼器與 VAE

面向	內容
核心架構	編碼器-解碼器（Encoder-Decoder）+ 變分自編碼器（VAE, Variational Autoencoder）
底層神經網路	遞迴神經網路（RNN, Recurrent Neural Network）或簡單卷積結構
技術特徵	VAE 利用變分推斷（Variational Inference）生成數據，強調機率建模；RNN 專注於序列數據生成
代表應用	簡單圖像重建（如 MNIST 手寫數字）、基礎文本生成
階段限制	生成結果模糊（低解析度）、品質不穩定；訓練因梯度消失或計算複雜性難以收斂

2.6B 階段：GAN 對抗生成網路

面向	內容
提出	2014 年，Ian Goodfellow 提出對抗生成網路（GAN, Generative Adversarial Network）
運作機制	生成器（Generator）學習逼近真實數據分佈；判別器（Discriminator）負責區分生成數據與真實數據；兩者對抗訓練形成動態平衡
技術特徵	對抗訓練機制提升生成內容的寫實性與細節表現力
代表模型	DCGAN（深度卷積 GAN）、CycleGAN（風格轉換）、StyleGAN（高品質人臉生成）
應用情境	人臉合成、圖像風格遷移（如油畫轉照片）、動畫角色生成
階段限制	訓練不穩定（模式崩潰 Mode Collapse）、對超參數敏感、難以生成結構複雜的長序列內容

2.7C 階段：Transformer 自注意力

面向	內容
提出	2017 年，Google 提出 Transformer 架構，徹底改變生成式 AI 的發展路徑
核心機制	基於自注意力機制（Self-Attention），克服 RNN 在長距離依賴建模上的局限，並顯著提升並行計算效率
技術特徵	自注意力實現全局語境建模，支援高效的序列生成
代表模型	BERT（雙向理解）、GPT 系列（自迴歸生成）、T5（文本到文本轉換）
應用情境	文本生成（文章撰寫）、對話系統、語意理解
階段影響	生成內容的連貫性與邏輯性大幅提升，為後續多模態生成奠定基礎；催生大型語言模型（LLM, Large Language Model）興起

2.8D 階段：擴散模型與多模態

面向	內容
擴散模型機制	通過逐步去噪（Denoising）過程，從隨機噪聲生成細節豐富的圖像
代表擴散模型	DDPM（Denoising Diffusion Probabilistic Models）、Stable Diffusion
多模態模型	整合圖像、文本、語音等多種數據類型，實現跨模態生成
技術特徵	擴散模型強調逐步優化；多模態模型依賴預訓練 + 跨模態對齊（如 CLIP 的圖文對應）
代表模型	Stable Diffusion（圖像生成）、DALL·E（文本到圖像）、Flamingo（視覺問答）、Gemini（多模態整合）
應用情境	藝術創作（AI 繪畫）、圖文生成廣告、多模態對話

2.9E 階段：巨型模型與 Agent 化

面向	內容
規模門檻	參數規模突破百億甚至千億
代表模型	GPT-4、Claude 2、Gemini 1.5
技術特徵	巨型參數規模、指令驅動（Instruction Tuning）、工具鏈整合（API 調用、RAG 檢索增強生成、記憶功能）
核心轉變	朝「自主代理人（Autonomous Agent）」與「任務導向協作 AI」演進，與外部工具整合提升實用性
代表應用	自動任務規劃（行程安排）、程式碼生成、多模態協作（圖文編輯）
階段趨勢	從單純的內容創造轉向任務解決與智慧協助，應用邊界進一步拓寬

3生成式 AI 常見模型與工具

文本生成 / 圖像生成 / 語音合成三大模態

3.1文本生成 — 五大代表模型

模型 / 平台	提出方	特色
GPT 系列 Generative Pre-trained Transformer	OpenAI	自 GPT-2 起展現強大語言理解與生成能力；GPT-3、GPT-4 進一步提升品質，支持高準確度對話、摘要、翻譯、程式碼生成
ChatGPT	OpenAI	目前最廣為人知、最多使用人數的對話式 AI 應用；基於 GPT 架構；整合語言、圖像與工具調用，具跨模態生成特性
Claude	Anthropic	以安全性與長上下文處理能力著稱，強調模型與人類價值的對齊（Alignment），適用於需高可信度的情境
Gemini	Google DeepMind	整合語言、圖像與工具調用，具跨模態生成特性，適應多任務需求
開源模型	—	LLaMA（Meta AI）、Mistral、Command-R（Cohere）；提供高效能與靈活性，廣泛用於社群研究與企業內部部署

3.2文本生成 — 五大應用情境

情境	應用
自動化客服	生成即時回覆，提升問題解決效率
電子郵件撰寫	自動生成日常工作郵件或商業報告，減少人工重複勞動
法律 / 醫療文書草擬	快速生成合同草案、醫療報告，提升專業文件效率
程式碼補全	支援程式碼撰寫與除錯，如 GitHub Copilot 的應用
教學內容生成	生成個人化學習材料，輔助教師與學生

3.3文本生成 — 挑戰與三大評估指標

指標	核心	優勢	限制	適用
BLEU	詞彙相似度（n-gram 重疊 + 簡短懲罰 Brevity Penalty）	自動化、計算快速	忽略語意與流暢性	機器翻譯、文本生成
ROUGE	摘要資訊召回（Recall-Oriented，含 ROUGE-N / ROUGE-L / ROUGE-S）	關注關鍵內容覆蓋	無法衡量創新性	自動摘要、問答
人工評估	流暢性（Fluency） + 準確性（Accuracy）	捕捉語意與語用	主觀性強、成本高	對話、創意寫作

3.4圖像生成 — 三類模型

模型類型	原理	代表
Diffusion Models 擴散模型	逐步降噪過程生成圖像，具備高自由度與真實感	Stable Diffusion、DALL·E 2、Imagen
GAN Generative Adversarial Network	對抗訓練生成逼真的人臉、風景、藝術風格圖	StyleGAN、BigGAN
ControlNet / InstructPix2Pix	用於控制圖像生成姿態、邊緣、遮罩或修改局部內容	—

3.5圖像生成 — 四大工具平台

工具	定位	關鍵特性
Midjourney	雲端服務圖像生成工具	透過 Discord 平台以指令操作或官網操作；以生成高美學風格圖像聞名；融合擴散模型 + 風格優化算法
Stable Diffusion WebUI	開源本地部署工具	基於 Stable Diffusion 模型；提供圖形化介面；支援 LoRA（Low-Rank Adaptation）微調、ControlNet 邊緣控制、參數自定義
Adobe Firefly	Adobe 開發，專為設計師	無縫集成至 Photoshop 與 Illustrator；從文本提示生成視覺素材；提供後期編輯，注重專業工作兼容性
Canva AI	Canva 設計平台內建，降低創作門檻	簡單提示生成創意圖像；可在平台上直接編輯；目標是讓非專業設計者都能簡易操作；強調快速生成與易用性

3.6圖像生成 — 五大應用情境

情境	應用
品牌視覺設計	生成品牌標誌、廣告圖像等
社群圖文素材產生	自動生成社交媒體貼文或推廣圖像
遊戲角色與場景創作	快速創建遊戲中的角色、場景或概念藝術
影片預視化 Pre-Visualization	快速創作電影、動畫的場景設計
藝術風格模仿	根據指定風格創作藝術圖像或插畫

3.7語音合成（TTS）— 三類常用模型

模型	架構	特徵
Tacotron 2 與 FastSpeech 2	基於序列轉換（Seq2Seq）架構；Tacotron 2 結合卷積 + 循環神經網路生成語音頻譜，再由 WaveNet 轉換為波形；FastSpeech 2 採用非自迴歸（Non-Autoregressive）設計	語音流暢、節奏可控，適合高品質應用
VITS Variational Inference Text-to-Speech	結合 VAE + GAN，通過端到端訓練直接從文字生成語音波形	音質細膩、訓練效率高，適應多語者情境；自然度與音色變化表現優異
Whisper	OpenAI 推出，主要為語音辨識（Speech-to-Text）模型；常與語音合成搭配形成雙向語音應用流程（先辨識再合成）	跨模態支援，增強語音系統整合性

3.8語音合成 — 四大工具平台

工具	定位	典型應用
ElevenLabs	雲端語音合成工具，支持多語言與高情感表達，可微調聲音風格（語氣、情緒）；自然度高	遊戲配音、Podcast 製作
Microsoft Azure TTS	穩定且高效的雲端語音合成；多語言與語音風格選項；企業級擴展能力	商業客服系統、語音導航
Google Cloud TTS	基於 Google 的語音技術；提供自動化、可擴展的 API；支持多語言與語音客製化	客服機器人、智慧助理
Amazon Polly	亞馬遜推出；支援多語言與多語者模型；高品質語音輸出；適合大規模部署	虛擬語音助理、有聲書製作

3.9語音合成 — 六大應用情境

情境	說明 / 教材示例
電子學習平台語音教材	將課程文字轉換為語音，提供有聲書或語音教程；如 Google Cloud TTS 生成多語言教學內容
有聲書製作	將書籍或文章轉換為可聆聽的語音格式；Amazon Polly 可快速生成有聲書
遊戲角色語音	為遊戲中的角色生成語音，增強互動體驗；ElevenLabs 可生成具情感的角色對白
虛擬偶像與動畫配音	為虛擬角色或動畫生成自然語音，提升沉浸感；VITS 可生成具獨特音色的虛擬偶像語音
語音客服	自動化客服系統的語音回應；Microsoft Azure TTS 可生成即時客服語音
智慧家居語音控制	支援語音提示與指令回饋；Google Cloud TTS 可為智慧音箱生成語音提示

3.10語音合成 — 三大挑戰 + 三大關鍵指標

挑戰	內容
情感表達自然度	生成語音需準確反映情緒與語境，避免機械感
多語言適應性	確保語音在不同語言與方言中的品質一致
倫理風險	語音複製（Clone）可能涉及隱私與偽造問題，需規範使用

關鍵指標	定義
MOS Mean Opinion Score	人工評估語音自然度的平均分數（1-5 分）
WER Word Error Rate	衡量語音內容準確性的錯誤率
生成延遲	從文字輸入到語音輸出的時間，影響即時應用效果

4生成式 AI 風險與未來趨勢

五大潛在風險 A-E + 五大技術趨勢 A-E

4.1五大潛在風險與挑戰（A → E）

風險	核心問題	教材鎖死的具體危害
A. 內容真偽與資訊可信度	生成模型可創造看似真實但實際虛構的內容	偽造的新聞報導、改造的人物影像、合成語音 → 危害選舉、金融、市場、個人名譽
B. 智慧財產權與授權爭議	訓練資料可能涉及受著作權保護的內容	未經授權使用 → 衍生著作權糾紛
C. 偏見放大與倫理風險	訓練資料存在性別、種族、文化偏見	生成模型延續甚至強化偏見 → 在醫療、司法、招聘等領域出現倫理問題
D. 深偽（Deepfake）技術濫用	結合圖像生成 + 語音合成技術產生的深偽影片	已成為詐騙與假訊息散播的工具，亟需技術偵測與法律規範
E. 可控性與輸出結果不確定性	生成結果不完全可預測	使用者提示不準確 → 模型生成不相關或不適當的內容，影響商業應用與決策系統可靠性

4.2五大技術發展趨勢（A → E）

趨勢	核心方向	關鍵技術 / 例子
A. 多模態生成的崛起	不再侷限於單一類型資料，而是整合語音、圖像、影片、3D 場景等多模態	打造高度互動的創作系統與智慧代理
B. 可控生成與提示工程深化	可控性將成為核心能力；模型要能針對語氣、風格、長度、格式進行調整	提示工程（Prompt Engineering）將逐步發展為一項關鍵技能
C. 小型化與邊緣部署	因應運算資源與資料隱私考量，朝「可在地端執行」的小型模型發展	嵌入手機、個人電腦、IoT 設備等邊緣設備
D. 模型對齊與安全防護機制進化	更重視「對齊性（Alignment）」與「防濫用機制」	結合回饋式強化學習（RLHF, Reinforcement Learning with Human Feedback）、紅隊測試（Red Teaming），強化輸出安全性與合規性
E. 法規制定與全球治理機制成形	為生成式 AI 應用劃出法規邊界	歐盟 AI 法案（EU AI Act）、美國 AI 政策框架、國際技術標準制定

4.3風險 ↔ 緩解策略對應

風險	對應緩解 / 治理策略
A. 內容真偽 / D. Deepfake	技術偵測（如 Deepfake 偵測模型）+ EU AI Act 等法律規範
B. 智財權爭議	合法授權資料源、訓練資料 audit、揭露生成內容
C. 偏見放大	資料平衡、Bias Audit、公平性指標
E. 可控性不確定	提示工程深化（趨勢 B） + 對齊技術（RLHF/Red Teaming）（趨勢 D）
整體（資源與隱私）	小型化邊緣部署（趨勢 C） + 法規治理（趨勢 E）

AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L21103 考前複習筆記 · v1.0（2026-05 表格化精簡版）