L21103生成式AI技術與應用
0%

L21103 生成式 AI 技術與應用

2生成式 AI 基礎概念與演進脈絡
定義與範疇 + 五大應用類型 + 技術演進五階段

2.1定義:生成式 AI vs 鑑別式 AI

比較面向生成式 AI(Generative AI)鑑別式 AI(Discriminative AI)
① 目標生成新的資料樣本,例如文本、圖像、音訊等進行分類、辨識或預測,將資料歸類或分配標籤
② 工作方式學習資料的分佈並生成新的樣本學習資料的特徵,並依此進行預測或分類
③ 主要應用內容創作(文本生成、圖像生成、語音合成等)分類問題(圖像分類、語音辨識、疾病預測等)
④ 模型例子GPTVAEGANDiffusion ModelsSVM、決策樹、隨機森林、Logistic 迴歸
⑤ 訓練方式學習資料分佈的結構並生成新資料樣本基於已有資料進行辨識與分類
⑥ 結果生成新的數據或創造性內容辨識資料的類別或預測目標變數
⑦ 輸出新的資料點或內容,如圖像、文字等類別標籤或數值預測
⑧ 例子ChatGPT(文本生成)、DALL·E(圖像生成)ResNet(圖像分類)、HMM(語音辨識)

2.2五大應用類型

類型/英文代表平台 / 模型能力
① 文本生成
Text Generation
ChatGPTClaude對話、摘要、文章撰寫及翻譯
② 圖像生成
Image Generation
DALL·EMidjourneyStable Diffusion根據文字描述生成高解析度的圖像
③ 語音與音樂生成
Audio Generation
ElevenLabsMusicLM合成語音或創作音樂
④ 影片生成
Video Generation
RunwaySora根據文字描述自動生成影片片段
⑤ 多模態生成
Multimodal Generation
GeminiGPT-4VCLIP整合文字、圖像、語音及動作的輸入與輸出

2.3整套技術體系(架構 + 應用策略)

類別中文/英文備註
模型架構大規模語言模型
LLM, Large Language Model
擴散模型
Diffusion Models
對抗生成網路
GAN, Generative Adversarial Network
變分自編碼器
VAE, Variational Autoencoder
應用策略提示工程
Prompt Engineering
引導模型輸出
微調
Fine-tuning
領域客製化
少樣本學習
Few-shot Learning
少量範例觸發能力

2.4技術演進五階段(A → E)

階段年代核心技術代表模型限制 / 特徵
A. 初期階段2013–2015VAE、RNNVAE生成模糊、訓練困難
B. GAN 時代2014–2020對抗訓練DCGAN、StyleGAN高寫實性、不穩定性
C. Transformer 崛起2017 年起自注意力機制BERT、GPT高效語境建模、NLP 主導
D. 擴散與多模態2020 年起擴散模型、多模態對齊Stable Diffusion、DALL·E高品質、多模態整合
E. 巨型模型與 Agent 化2023 年起巨型參數、工具整合GPT-4、Gemini自主性、任務導向

2.5A 階段:編碼器 - 解碼器與 VAE

面向內容
核心架構編碼器-解碼器(Encoder-Decoder)+ 變分自編碼器(VAE, Variational Autoencoder)
底層神經網路遞迴神經網路(RNN, Recurrent Neural Network)或簡單卷積結構
技術特徵VAE 利用變分推斷(Variational Inference)生成數據,強調機率建模;RNN 專注於序列數據生成
代表應用簡單圖像重建(如 MNIST 手寫數字)、基礎文本生成
階段限制生成結果模糊(低解析度)、品質不穩定;訓練因梯度消失或計算複雜性難以收斂

2.6B 階段:GAN 對抗生成網路

面向內容
提出2014 年,Ian Goodfellow 提出對抗生成網路(GAN, Generative Adversarial Network)
運作機制生成器(Generator)學習逼近真實數據分佈;判別器(Discriminator)負責區分生成數據與真實數據;兩者對抗訓練形成動態平衡
技術特徵對抗訓練機制提升生成內容的寫實性與細節表現力
代表模型DCGAN(深度卷積 GAN)、CycleGAN(風格轉換)、StyleGAN(高品質人臉生成)
應用情境人臉合成、圖像風格遷移(如油畫轉照片)、動畫角色生成
階段限制訓練不穩定(模式崩潰 Mode Collapse)、對超參數敏感、難以生成結構複雜的長序列內容

2.7C 階段:Transformer 自注意力

面向內容
提出2017 年,Google 提出 Transformer 架構,徹底改變生成式 AI 的發展路徑
核心機制基於自注意力機制(Self-Attention),克服 RNN 在長距離依賴建模上的局限,並顯著提升並行計算效率
技術特徵自注意力實現全局語境建模,支援高效的序列生成
代表模型BERT(雙向理解)、GPT 系列(自迴歸生成)、T5(文本到文本轉換)
應用情境文本生成(文章撰寫)、對話系統、語意理解
階段影響生成內容的連貫性與邏輯性大幅提升,為後續多模態生成奠定基礎;催生大型語言模型(LLM, Large Language Model)興起

2.8D 階段:擴散模型與多模態

面向內容
擴散模型機制通過逐步去噪(Denoising)過程,從隨機噪聲生成細節豐富的圖像
代表擴散模型DDPM(Denoising Diffusion Probabilistic Models)、Stable Diffusion
多模態模型整合圖像、文本、語音等多種數據類型,實現跨模態生成
技術特徵擴散模型強調逐步優化;多模態模型依賴預訓練 + 跨模態對齊(如 CLIP 的圖文對應
代表模型Stable Diffusion(圖像生成)、DALL·E(文本到圖像)、Flamingo(視覺問答)、Gemini(多模態整合)
應用情境藝術創作(AI 繪畫)、圖文生成廣告、多模態對話

2.9E 階段:巨型模型與 Agent 化

面向內容
規模門檻參數規模突破百億甚至千億
代表模型GPT-4、Claude 2、Gemini 1.5
技術特徵巨型參數規模、指令驅動(Instruction Tuning)、工具鏈整合(API 調用、RAG 檢索增強生成、記憶功能)
核心轉變朝「自主代理人(Autonomous Agent)」與「任務導向協作 AI」演進,與外部工具整合提升實用性
代表應用自動任務規劃(行程安排)、程式碼生成、多模態協作(圖文編輯)
階段趨勢從單純的內容創造轉向任務解決與智慧協助,應用邊界進一步拓寬
3生成式 AI 常見模型與工具
文本生成 / 圖像生成 / 語音合成 三大模態

3.1文本生成 — 五大代表模型

模型 / 平台提出方特色
GPT 系列
Generative Pre-trained Transformer
OpenAIGPT-2 起展現強大語言理解與生成能力;GPT-3、GPT-4 進一步提升品質,支持高準確度對話、摘要、翻譯、程式碼生成
ChatGPTOpenAI目前最廣為人知、最多使用人數的對話式 AI 應用;基於 GPT 架構;整合語言、圖像與工具調用,具跨模態生成特性
ClaudeAnthropic安全性與長上下文處理能力著稱,強調模型與人類價值的對齊(Alignment),適用於需高可信度的情境
GeminiGoogle DeepMind整合語言、圖像與工具調用,具跨模態生成特性,適應多任務需求
開源模型LLaMA(Meta AI)、MistralCommand-R(Cohere);提供高效能與靈活性,廣泛用於社群研究與企業內部部署

3.2文本生成 — 五大應用情境

情境應用
自動化客服生成即時回覆,提升問題解決效率
電子郵件撰寫自動生成日常工作郵件或商業報告,減少人工重複勞動
法律 / 醫療文書草擬快速生成合同草案、醫療報告,提升專業文件效率
程式碼補全支援程式碼撰寫與除錯,如 GitHub Copilot 的應用
教學內容生成生成個人化學習材料,輔助教師與學生

3.3文本生成 — 挑戰與三大評估指標

指標核心優勢限制適用
BLEU詞彙相似度
n-gram 重疊 + 簡短懲罰 Brevity Penalty)
自動化、計算快速忽略語意與流暢性機器翻譯、文本生成
ROUGE摘要資訊召回
Recall-Oriented,含 ROUGE-N / ROUGE-L / ROUGE-S)
關注關鍵內容覆蓋無法衡量創新性自動摘要、問答
人工評估流暢性(Fluency)
+ 準確性(Accuracy)
捕捉語意與語用主觀性強、成本高對話、創意寫作

3.4圖像生成 — 三類模型

模型類型原理代表
Diffusion Models
擴散模型
逐步降噪過程生成圖像,具備高自由度與真實感Stable Diffusion、DALL·E 2、Imagen
GAN
Generative Adversarial Network
對抗訓練生成逼真的人臉、風景、藝術風格圖StyleGAN、BigGAN
ControlNet / InstructPix2Pix用於控制圖像生成姿態、邊緣、遮罩或修改局部內容

3.5圖像生成 — 四大工具平台

工具定位關鍵特性
Midjourney雲端服務圖像生成工具透過 Discord 平台以指令操作或官網操作;以生成高美學風格圖像聞名;融合擴散模型 + 風格優化算法
Stable Diffusion WebUI開源本地部署工具基於 Stable Diffusion 模型;提供圖形化介面;支援 LoRA(Low-Rank Adaptation)微調ControlNet 邊緣控制、參數自定義
Adobe FireflyAdobe 開發,專為設計師無縫集成至 Photoshop 與 Illustrator;從文本提示生成視覺素材;提供後期編輯,注重專業工作兼容性
Canva AICanva 設計平台內建,降低創作門檻簡單提示生成創意圖像;可在平台上直接編輯;目標是讓非專業設計者都能簡易操作;強調快速生成與易用性

3.6圖像生成 — 五大應用情境

情境應用
品牌視覺設計生成品牌標誌、廣告圖像等
社群圖文素材產生自動生成社交媒體貼文或推廣圖像
遊戲角色與場景創作快速創建遊戲中的角色、場景或概念藝術
影片預視化
Pre-Visualization
快速創作電影、動畫的場景設計
藝術風格模仿根據指定風格創作藝術圖像或插畫

3.7語音合成(TTS)— 三類常用模型

模型架構特徵
Tacotron 2 與 FastSpeech 2基於序列轉換(Seq2Seq)架構;Tacotron 2 結合卷積 + 循環神經網路生成語音頻譜,再由 WaveNet 轉換為波形;FastSpeech 2 採用非自迴歸(Non-Autoregressive)設計語音流暢、節奏可控,適合高品質應用
VITS
Variational Inference Text-to-Speech
結合 VAE + GAN,通過端到端訓練直接從文字生成語音波形音質細膩、訓練效率高,適應多語者情境;自然度與音色變化表現優異
WhisperOpenAI 推出,主要為語音辨識(Speech-to-Text)模型;常與語音合成搭配形成雙向語音應用流程(先辨識再合成)跨模態支援,增強語音系統整合性

3.8語音合成 — 四大工具平台

工具定位典型應用
ElevenLabs雲端語音合成工具,支持多語言與高情感表達,可微調聲音風格(語氣、情緒);自然度高遊戲配音、Podcast 製作
Microsoft Azure TTS穩定且高效的雲端語音合成;多語言與語音風格選項;企業級擴展能力商業客服系統、語音導航
Google Cloud TTS基於 Google 的語音技術;提供自動化、可擴展的 API;支持多語言與語音客製化客服機器人、智慧助理
Amazon Polly亞馬遜推出;支援多語言與多語者模型;高品質語音輸出;適合大規模部署虛擬語音助理、有聲書製作

3.9語音合成 — 六大應用情境

情境說明 / 教材示例
電子學習平台語音教材將課程文字轉換為語音,提供有聲書或語音教程;如 Google Cloud TTS 生成多語言教學內容
有聲書製作將書籍或文章轉換為可聆聽的語音格式;Amazon Polly 可快速生成有聲書
遊戲角色語音為遊戲中的角色生成語音,增強互動體驗;ElevenLabs 可生成具情感的角色對白
虛擬偶像與動畫配音為虛擬角色或動畫生成自然語音,提升沉浸感;VITS 可生成具獨特音色的虛擬偶像語音
語音客服自動化客服系統的語音回應;Microsoft Azure TTS 可生成即時客服語音
智慧家居語音控制支援語音提示與指令回饋;Google Cloud TTS 可為智慧音箱生成語音提示

3.10語音合成 — 三大挑戰 + 三大關鍵指標

挑戰內容
情感表達自然度生成語音需準確反映情緒與語境,避免機械感
多語言適應性確保語音在不同語言與方言中的品質一致
倫理風險語音複製(Clone)可能涉及隱私與偽造問題,需規範使用
關鍵指標定義
MOS
Mean Opinion Score
人工評估語音自然度的平均分數(1-5 分
WER
Word Error Rate
衡量語音內容準確性的錯誤率
生成延遲從文字輸入到語音輸出的時間,影響即時應用效果
4生成式 AI 風險與未來趨勢
五大潛在風險 A-E + 五大技術趨勢 A-E

4.1五大潛在風險與挑戰(A → E)

風險核心問題教材鎖死的具體危害
A. 內容真偽與資訊可信度生成模型可創造看似真實但實際虛構的內容偽造的新聞報導、改造的人物影像合成語音 → 危害選舉、金融、市場、個人名譽
B. 智慧財產權與授權爭議訓練資料可能涉及受著作權保護的內容未經授權使用 → 衍生著作權糾紛
C. 偏見放大與倫理風險訓練資料存在性別、種族、文化偏見生成模型延續甚至強化偏見 → 在醫療、司法、招聘等領域出現倫理問題
D. 深偽(Deepfake)技術濫用結合圖像生成 + 語音合成技術產生的深偽影片已成為詐騙與假訊息散播的工具,亟需技術偵測與法律規範
E. 可控性與輸出結果不確定性生成結果不完全可預測使用者提示不準確 → 模型生成不相關或不適當的內容,影響商業應用與決策系統可靠性

4.2五大技術發展趨勢(A → E)

趨勢核心方向關鍵技術 / 例子
A. 多模態生成的崛起不再侷限於單一類型資料,而是整合語音、圖像、影片、3D 場景等多模態打造高度互動的創作系統與智慧代理
B. 可控生成與提示工程深化可控性將成為核心能力;模型要能針對語氣、風格、長度、格式進行調整提示工程(Prompt Engineering)將逐步發展為一項關鍵技能
C. 小型化與邊緣部署因應運算資源與資料隱私考量,朝「可在地端執行」的小型模型發展嵌入手機、個人電腦、IoT 設備等邊緣設備
D. 模型對齊與安全防護機制進化更重視「對齊性(Alignment)」與「防濫用機制結合回饋式強化學習(RLHF, Reinforcement Learning with Human Feedback)紅隊測試(Red Teaming),強化輸出安全性與合規性
E. 法規制定與全球治理機制成形為生成式 AI 應用劃出法規邊界歐盟 AI 法案(EU AI Act)美國 AI 政策框架、國際技術標準制定

4.3風險 ↔ 緩解策略對應

風險對應緩解 / 治理策略
A. 內容真偽 / D. Deepfake技術偵測(如 Deepfake 偵測模型)+ EU AI Act 等法律規範
B. 智財權爭議合法授權資料源、訓練資料 audit、揭露生成內容
C. 偏見放大資料平衡、Bias Audit、公平性指標
E. 可控性不確定提示工程深化(趨勢 B) + 對齊技術(RLHF/Red Teaming)(趨勢 D)
整體(資源與隱私)小型化邊緣部署(趨勢 C) + 法規治理(趨勢 E)
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L21103 考前複習筆記 · v1.0(2026-05 表格化精簡版)