L21103 生成式 AI 技術與應用
2生成式 AI 基礎概念與演進脈絡
定義與範疇 + 五大應用類型 + 技術演進五階段
2.1定義:生成式 AI vs 鑑別式 AI
| 比較面向 | 生成式 AI(Generative AI) | 鑑別式 AI(Discriminative AI) |
|---|---|---|
| ① 目標 | 生成新的資料樣本,例如文本、圖像、音訊等 | 進行分類、辨識或預測,將資料歸類或分配標籤 |
| ② 工作方式 | 學習資料的分佈並生成新的樣本 | 學習資料的特徵,並依此進行預測或分類 |
| ③ 主要應用 | 內容創作(文本生成、圖像生成、語音合成等) | 分類問題(圖像分類、語音辨識、疾病預測等) |
| ④ 模型例子 | GPT、VAE、GAN、Diffusion Models | SVM、決策樹、隨機森林、Logistic 迴歸 |
| ⑤ 訓練方式 | 學習資料分佈的結構並生成新資料樣本 | 基於已有資料進行辨識與分類 |
| ⑥ 結果 | 生成新的數據或創造性內容 | 辨識資料的類別或預測目標變數 |
| ⑦ 輸出 | 新的資料點或內容,如圖像、文字等 | 類別標籤或數值預測 |
| ⑧ 例子 | ChatGPT(文本生成)、DALL·E(圖像生成) | ResNet(圖像分類)、HMM(語音辨識) |
2.2五大應用類型
| 類型/英文 | 代表平台 / 模型 | 能力 |
|---|---|---|
| ① 文本生成 Text Generation | ChatGPT、Claude | 對話、摘要、文章撰寫及翻譯 |
| ② 圖像生成 Image Generation | DALL·E、Midjourney、Stable Diffusion | 根據文字描述生成高解析度的圖像 |
| ③ 語音與音樂生成 Audio Generation | ElevenLabs、MusicLM | 合成語音或創作音樂 |
| ④ 影片生成 Video Generation | Runway、Sora | 根據文字描述自動生成影片片段 |
| ⑤ 多模態生成 Multimodal Generation | Gemini、GPT-4V、CLIP | 整合文字、圖像、語音及動作的輸入與輸出 |
2.3整套技術體系(架構 + 應用策略)
| 類別 | 中文/英文 | 備註 |
|---|---|---|
| 模型架構 | 大規模語言模型 LLM, Large Language Model | — |
| 擴散模型 Diffusion Models | — | |
| 對抗生成網路 GAN, Generative Adversarial Network | — | |
| 變分自編碼器 VAE, Variational Autoencoder | — | |
| 應用策略 | 提示工程 Prompt Engineering | 引導模型輸出 |
| 微調 Fine-tuning | 領域客製化 | |
| 少樣本學習 Few-shot Learning | 少量範例觸發能力 |
2.4技術演進五階段(A → E)
| 階段 | 年代 | 核心技術 | 代表模型 | 限制 / 特徵 |
|---|---|---|---|---|
| A. 初期階段 | 2013–2015 | VAE、RNN | VAE | 生成模糊、訓練困難 |
| B. GAN 時代 | 2014–2020 | 對抗訓練 | DCGAN、StyleGAN | 高寫實性、不穩定性 |
| C. Transformer 崛起 | 2017 年起 | 自注意力機制 | BERT、GPT | 高效語境建模、NLP 主導 |
| D. 擴散與多模態 | 2020 年起 | 擴散模型、多模態對齊 | Stable Diffusion、DALL·E | 高品質、多模態整合 |
| E. 巨型模型與 Agent 化 | 2023 年起 | 巨型參數、工具整合 | GPT-4、Gemini | 自主性、任務導向 |
2.5A 階段:編碼器 - 解碼器與 VAE
| 面向 | 內容 |
|---|---|
| 核心架構 | 編碼器-解碼器(Encoder-Decoder)+ 變分自編碼器(VAE, Variational Autoencoder) |
| 底層神經網路 | 遞迴神經網路(RNN, Recurrent Neural Network)或簡單卷積結構 |
| 技術特徵 | VAE 利用變分推斷(Variational Inference)生成數據,強調機率建模;RNN 專注於序列數據生成 |
| 代表應用 | 簡單圖像重建(如 MNIST 手寫數字)、基礎文本生成 |
| 階段限制 | 生成結果模糊(低解析度)、品質不穩定;訓練因梯度消失或計算複雜性難以收斂 |
2.6B 階段:GAN 對抗生成網路
| 面向 | 內容 |
|---|---|
| 提出 | 2014 年,Ian Goodfellow 提出對抗生成網路(GAN, Generative Adversarial Network) |
| 運作機制 | 生成器(Generator)學習逼近真實數據分佈;判別器(Discriminator)負責區分生成數據與真實數據;兩者對抗訓練形成動態平衡 |
| 技術特徵 | 對抗訓練機制提升生成內容的寫實性與細節表現力 |
| 代表模型 | DCGAN(深度卷積 GAN)、CycleGAN(風格轉換)、StyleGAN(高品質人臉生成) |
| 應用情境 | 人臉合成、圖像風格遷移(如油畫轉照片)、動畫角色生成 |
| 階段限制 | 訓練不穩定(模式崩潰 Mode Collapse)、對超參數敏感、難以生成結構複雜的長序列內容 |
2.7C 階段:Transformer 自注意力
| 面向 | 內容 |
|---|---|
| 提出 | 2017 年,Google 提出 Transformer 架構,徹底改變生成式 AI 的發展路徑 |
| 核心機制 | 基於自注意力機制(Self-Attention),克服 RNN 在長距離依賴建模上的局限,並顯著提升並行計算效率 |
| 技術特徵 | 自注意力實現全局語境建模,支援高效的序列生成 |
| 代表模型 | BERT(雙向理解)、GPT 系列(自迴歸生成)、T5(文本到文本轉換) |
| 應用情境 | 文本生成(文章撰寫)、對話系統、語意理解 |
| 階段影響 | 生成內容的連貫性與邏輯性大幅提升,為後續多模態生成奠定基礎;催生大型語言模型(LLM, Large Language Model)興起 |
2.8D 階段:擴散模型與多模態
| 面向 | 內容 |
|---|---|
| 擴散模型機制 | 通過逐步去噪(Denoising)過程,從隨機噪聲生成細節豐富的圖像 |
| 代表擴散模型 | DDPM(Denoising Diffusion Probabilistic Models)、Stable Diffusion |
| 多模態模型 | 整合圖像、文本、語音等多種數據類型,實現跨模態生成 |
| 技術特徵 | 擴散模型強調逐步優化;多模態模型依賴預訓練 + 跨模態對齊(如 CLIP 的圖文對應) |
| 代表模型 | Stable Diffusion(圖像生成)、DALL·E(文本到圖像)、Flamingo(視覺問答)、Gemini(多模態整合) |
| 應用情境 | 藝術創作(AI 繪畫)、圖文生成廣告、多模態對話 |
2.9E 階段:巨型模型與 Agent 化
| 面向 | 內容 |
|---|---|
| 規模門檻 | 參數規模突破百億甚至千億 |
| 代表模型 | GPT-4、Claude 2、Gemini 1.5 |
| 技術特徵 | 巨型參數規模、指令驅動(Instruction Tuning)、工具鏈整合(API 調用、RAG 檢索增強生成、記憶功能) |
| 核心轉變 | 朝「自主代理人(Autonomous Agent)」與「任務導向協作 AI」演進,與外部工具整合提升實用性 |
| 代表應用 | 自動任務規劃(行程安排)、程式碼生成、多模態協作(圖文編輯) |
| 階段趨勢 | 從單純的內容創造轉向任務解決與智慧協助,應用邊界進一步拓寬 |
3生成式 AI 常見模型與工具
文本生成 / 圖像生成 / 語音合成 三大模態
3.1文本生成 — 五大代表模型
| 模型 / 平台 | 提出方 | 特色 |
|---|---|---|
| GPT 系列 Generative Pre-trained Transformer | OpenAI | 自 GPT-2 起展現強大語言理解與生成能力;GPT-3、GPT-4 進一步提升品質,支持高準確度對話、摘要、翻譯、程式碼生成 |
| ChatGPT | OpenAI | 目前最廣為人知、最多使用人數的對話式 AI 應用;基於 GPT 架構;整合語言、圖像與工具調用,具跨模態生成特性 |
| Claude | Anthropic | 以安全性與長上下文處理能力著稱,強調模型與人類價值的對齊(Alignment),適用於需高可信度的情境 |
| Gemini | Google DeepMind | 整合語言、圖像與工具調用,具跨模態生成特性,適應多任務需求 |
| 開源模型 | — | LLaMA(Meta AI)、Mistral、Command-R(Cohere);提供高效能與靈活性,廣泛用於社群研究與企業內部部署 |
3.2文本生成 — 五大應用情境
| 情境 | 應用 |
|---|---|
| 自動化客服 | 生成即時回覆,提升問題解決效率 |
| 電子郵件撰寫 | 自動生成日常工作郵件或商業報告,減少人工重複勞動 |
| 法律 / 醫療文書草擬 | 快速生成合同草案、醫療報告,提升專業文件效率 |
| 程式碼補全 | 支援程式碼撰寫與除錯,如 GitHub Copilot 的應用 |
| 教學內容生成 | 生成個人化學習材料,輔助教師與學生 |
3.3文本生成 — 挑戰與三大評估指標
| 指標 | 核心 | 優勢 | 限制 | 適用 |
|---|---|---|---|---|
| BLEU | 詞彙相似度 (n-gram 重疊 + 簡短懲罰 Brevity Penalty) | 自動化、計算快速 | 忽略語意與流暢性 | 機器翻譯、文本生成 |
| ROUGE | 摘要資訊召回 (Recall-Oriented,含 ROUGE-N / ROUGE-L / ROUGE-S) | 關注關鍵內容覆蓋 | 無法衡量創新性 | 自動摘要、問答 |
| 人工評估 | 流暢性(Fluency) + 準確性(Accuracy) | 捕捉語意與語用 | 主觀性強、成本高 | 對話、創意寫作 |
3.4圖像生成 — 三類模型
| 模型類型 | 原理 | 代表 |
|---|---|---|
| Diffusion Models 擴散模型 | 逐步降噪過程生成圖像,具備高自由度與真實感 | Stable Diffusion、DALL·E 2、Imagen |
| GAN Generative Adversarial Network | 對抗訓練生成逼真的人臉、風景、藝術風格圖 | StyleGAN、BigGAN |
| ControlNet / InstructPix2Pix | 用於控制圖像生成姿態、邊緣、遮罩或修改局部內容 | — |
3.5圖像生成 — 四大工具平台
| 工具 | 定位 | 關鍵特性 |
|---|---|---|
| Midjourney | 雲端服務圖像生成工具 | 透過 Discord 平台以指令操作或官網操作;以生成高美學風格圖像聞名;融合擴散模型 + 風格優化算法 |
| Stable Diffusion WebUI | 開源本地部署工具 | 基於 Stable Diffusion 模型;提供圖形化介面;支援 LoRA(Low-Rank Adaptation)微調、ControlNet 邊緣控制、參數自定義 |
| Adobe Firefly | Adobe 開發,專為設計師 | 無縫集成至 Photoshop 與 Illustrator;從文本提示生成視覺素材;提供後期編輯,注重專業工作兼容性 |
| Canva AI | Canva 設計平台內建,降低創作門檻 | 簡單提示生成創意圖像;可在平台上直接編輯;目標是讓非專業設計者都能簡易操作;強調快速生成與易用性 |
3.6圖像生成 — 五大應用情境
| 情境 | 應用 |
|---|---|
| 品牌視覺設計 | 生成品牌標誌、廣告圖像等 |
| 社群圖文素材產生 | 自動生成社交媒體貼文或推廣圖像 |
| 遊戲角色與場景創作 | 快速創建遊戲中的角色、場景或概念藝術 |
| 影片預視化 Pre-Visualization | 快速創作電影、動畫的場景設計 |
| 藝術風格模仿 | 根據指定風格創作藝術圖像或插畫 |
3.7語音合成(TTS)— 三類常用模型
| 模型 | 架構 | 特徵 |
|---|---|---|
| Tacotron 2 與 FastSpeech 2 | 基於序列轉換(Seq2Seq)架構;Tacotron 2 結合卷積 + 循環神經網路生成語音頻譜,再由 WaveNet 轉換為波形;FastSpeech 2 採用非自迴歸(Non-Autoregressive)設計 | 語音流暢、節奏可控,適合高品質應用 |
| VITS Variational Inference Text-to-Speech | 結合 VAE + GAN,通過端到端訓練直接從文字生成語音波形 | 音質細膩、訓練效率高,適應多語者情境;自然度與音色變化表現優異 |
| Whisper | OpenAI 推出,主要為語音辨識(Speech-to-Text)模型;常與語音合成搭配形成雙向語音應用流程(先辨識再合成) | 跨模態支援,增強語音系統整合性 |
3.8語音合成 — 四大工具平台
| 工具 | 定位 | 典型應用 |
|---|---|---|
| ElevenLabs | 雲端語音合成工具,支持多語言與高情感表達,可微調聲音風格(語氣、情緒);自然度高 | 遊戲配音、Podcast 製作 |
| Microsoft Azure TTS | 穩定且高效的雲端語音合成;多語言與語音風格選項;企業級擴展能力 | 商業客服系統、語音導航 |
| Google Cloud TTS | 基於 Google 的語音技術;提供自動化、可擴展的 API;支持多語言與語音客製化 | 客服機器人、智慧助理 |
| Amazon Polly | 亞馬遜推出;支援多語言與多語者模型;高品質語音輸出;適合大規模部署 | 虛擬語音助理、有聲書製作 |
3.9語音合成 — 六大應用情境
| 情境 | 說明 / 教材示例 |
|---|---|
| 電子學習平台語音教材 | 將課程文字轉換為語音,提供有聲書或語音教程;如 Google Cloud TTS 生成多語言教學內容 |
| 有聲書製作 | 將書籍或文章轉換為可聆聽的語音格式;Amazon Polly 可快速生成有聲書 |
| 遊戲角色語音 | 為遊戲中的角色生成語音,增強互動體驗;ElevenLabs 可生成具情感的角色對白 |
| 虛擬偶像與動畫配音 | 為虛擬角色或動畫生成自然語音,提升沉浸感;VITS 可生成具獨特音色的虛擬偶像語音 |
| 語音客服 | 自動化客服系統的語音回應;Microsoft Azure TTS 可生成即時客服語音 |
| 智慧家居語音控制 | 支援語音提示與指令回饋;Google Cloud TTS 可為智慧音箱生成語音提示 |
3.10語音合成 — 三大挑戰 + 三大關鍵指標
| 挑戰 | 內容 |
|---|---|
| 情感表達自然度 | 生成語音需準確反映情緒與語境,避免機械感 |
| 多語言適應性 | 確保語音在不同語言與方言中的品質一致 |
| 倫理風險 | 語音複製(Clone)可能涉及隱私與偽造問題,需規範使用 |
| 關鍵指標 | 定義 |
|---|---|
| MOS Mean Opinion Score | 人工評估語音自然度的平均分數(1-5 分) |
| WER Word Error Rate | 衡量語音內容準確性的錯誤率 |
| 生成延遲 | 從文字輸入到語音輸出的時間,影響即時應用效果 |
4生成式 AI 風險與未來趨勢
五大潛在風險 A-E + 五大技術趨勢 A-E
4.1五大潛在風險與挑戰(A → E)
| 風險 | 核心問題 | 教材鎖死的具體危害 |
|---|---|---|
| A. 內容真偽與資訊可信度 | 生成模型可創造看似真實但實際虛構的內容 | 偽造的新聞報導、改造的人物影像、合成語音 → 危害選舉、金融、市場、個人名譽 |
| B. 智慧財產權與授權爭議 | 訓練資料可能涉及受著作權保護的內容 | 未經授權使用 → 衍生著作權糾紛 |
| C. 偏見放大與倫理風險 | 訓練資料存在性別、種族、文化偏見 | 生成模型延續甚至強化偏見 → 在醫療、司法、招聘等領域出現倫理問題 |
| D. 深偽(Deepfake)技術濫用 | 結合圖像生成 + 語音合成技術產生的深偽影片 | 已成為詐騙與假訊息散播的工具,亟需技術偵測與法律規範 |
| E. 可控性與輸出結果不確定性 | 生成結果不完全可預測 | 使用者提示不準確 → 模型生成不相關或不適當的內容,影響商業應用與決策系統可靠性 |
4.2五大技術發展趨勢(A → E)
| 趨勢 | 核心方向 | 關鍵技術 / 例子 |
|---|---|---|
| A. 多模態生成的崛起 | 不再侷限於單一類型資料,而是整合語音、圖像、影片、3D 場景等多模態 | 打造高度互動的創作系統與智慧代理 |
| B. 可控生成與提示工程深化 | 可控性將成為核心能力;模型要能針對語氣、風格、長度、格式進行調整 | 提示工程(Prompt Engineering)將逐步發展為一項關鍵技能 |
| C. 小型化與邊緣部署 | 因應運算資源與資料隱私考量,朝「可在地端執行」的小型模型發展 | 嵌入手機、個人電腦、IoT 設備等邊緣設備 |
| D. 模型對齊與安全防護機制進化 | 更重視「對齊性(Alignment)」與「防濫用機制」 | 結合回饋式強化學習(RLHF, Reinforcement Learning with Human Feedback)、紅隊測試(Red Teaming),強化輸出安全性與合規性 |
| E. 法規制定與全球治理機制成形 | 為生成式 AI 應用劃出法規邊界 | 歐盟 AI 法案(EU AI Act)、美國 AI 政策框架、國際技術標準制定 |
4.3風險 ↔ 緩解策略對應
| 風險 | 對應緩解 / 治理策略 |
|---|---|
| A. 內容真偽 / D. Deepfake | 技術偵測(如 Deepfake 偵測模型)+ EU AI Act 等法律規範 |
| B. 智財權爭議 | 合法授權資料源、訓練資料 audit、揭露生成內容 |
| C. 偏見放大 | 資料平衡、Bias Audit、公平性指標 |
| E. 可控性不確定 | 提示工程深化(趨勢 B) + 對齊技術(RLHF/Red Teaming)(趨勢 D) |
| 整體(資源與隱私) | 小型化邊緣部署(趨勢 C) + 法規治理(趨勢 E) |
AIONDAILY × 咖啡 AI 學 · iPAS AI 應用規劃師中級 · L21103 考前複習筆記 · v1.0(2026-05 表格化精簡版)