iPAS AI規劃師中級考題練習

第 1 題

某電商企業希望利用自然語言處理（NLP）技術，分析顧客在社群平台與商品評論中的文字內容，以即時掌握顧客對產品的滿意度變化。若採用情感分析（Sentiment Analysis）模型，其主要目的為何？

A預測顧客使用的語言風格與語氣；

B判斷文本中所表達的情感傾向；

C將顧客留言自動翻譯成企業內部指定語言；

D產生顧客評論的自動化摘要內容

第 2 題

某跨國金融科技公司導入 Transformer架構開發多語客服系統，以提升長篇金融文件的自動翻譯品質。下列何者為該模型能顯著改善翻譯準確度的主要原因？

A透過自注意力機制（Self-Attention Mechanism）捕捉長距離語境依賴關係；

B透過卷積運算（Convolution Operation）加速訓練過程；

C透過強化學習（Reinforcement Learning）自動調整語句生成策略；

D透過資料增強（Data Augmentation）平衡多語語料比例

第 3 題

某企業計畫應用 BERT（Bidirectional Encoder Representations from Transformers）模型分析大量顧客意見，以強化客服自動回覆系統。在 BERT 的預訓練過程中，「遮罩語言模型（Masked Language Model, MLM）」的主要訓練策略為何？

A依序遮罩句尾詞語，讓模型從左到右逐步生成完整句子；

B隨機遮罩部分詞語，並讓模型根據雙向上下文（Bidirectional Context）預測被遮罩的詞；

C透過對抗訓練（Adversarial Training）生成語意相似的擾動樣本以提升泛化性；

D以未遮罩的詞為條件，使用解碼器（Decoder）結構重建整句內容

第 4 題

在詞向量（Word Embedding）訓練方法中，GloVe（Global Vectors for Word Representation）與 Word2Vec的主要差異為何？

AWord2Vec 以詞頻權重訓練詞向量，而 GloVe以隨機初始化向量進行學習；

BWord2Vec 以全局統計矩陣為基礎，而 GloVe採用神經網路進行上下文預測；

CWord2Vec 為基於預測的模型，而 GloVe為基於共現統計的模型；

DWord2Vec 僅能用於靜態文本語料，而 GloVe可應用於即時語料更新

第 5 題

某企業以詞頻–逆文件頻率（Term Frequency–Inverse Document Frequency, TF-IDF）方法分析顧客意見內容，但發現模型在處理篇幅較長的回饋文本時，無法準確反映關鍵詞的重要性。下列何者為造成此現象的主要原因？

A長文本中的詞頻偏高，導致常見詞權重被過度放大；

B長文本中缺乏明確句子邊界，造成 TF-IDF 無法計算詞頻；

CTF-IDF 無法同時處理多份文件；

D長文本會改變 IDF（Inverse Document Frequency）的計算，使所有詞權重趨於相近

第 6 題

某企業嘗試以 N-gram語言模型（N-gram Language Model）建立客服自動回覆系統，但發現模型生成的句子雖在片段上合理，卻缺乏整體語意連貫性。此問題最可能源自 N-gram模型的哪一項限制？

AN-gram 模型在訓練過程中需要龐大計算量，導致長句無法收斂；

BN-gram 模型僅根據固定長度的前序詞建立機率估計，難以捕捉長距離依賴關係（Long-range Dependencies）；

CN-gram 模型缺乏語意嵌入（Semantic Embedding）層，因此無法表徵詞語間的語意相似度；

DN-gram 模型假設詞與詞之間相互獨立，導致無法建構上下文語意關聯

第 7 題

在企業導入的智慧監控系統中，模型以物件偵測（Object Detection）方式自動辨識影像中的人物與車輛。若評估指標採用平均精確率（Mean Average Precision, mAP），其中 IoU （Intersection over Union）閾值設定較高時，代表下列哪一項意義？

A預測邊界框與真實邊界框的重疊程度越高，模型偵測結果越精準；

B預測邊界框與真實邊界框的誤差越大，導致 mAP數值上升；

C模型整體精確率（Precision）降低，但召回率（Recall）上升；

D預測邊界框的評估結果不受真實框大小影響

第 8 題

關於 Softmax 與 Max-Pooling，下列敘述何者正確？

ASoftmax 與 Max-Pooling都會將特徵張量壓縮為單一最大值；

BMax-Pooling 會對輸入進行機率分佈的轉換；

CSoftmax 會保留所有輸入資訊，但以比例表示；Max-Pooling 只保留區域最大值；

DSoftmax 主要用於特徵降維，而 Max-Pooling用於分類輸出

第 9 題

某企業在訓練生成式 AI模型時，導入資料增強（Data Augmentation）技術以擴充訓練資料，但觀察到模型效能反而下降。下列哪一項最可能的原因與對應改善策略最為正確？

A增強樣本未經隨機初始化，導致模型梯度更新不穩定，應重新設計訓練啟動流程；

B增強後資料的特徵分佈與原始資料不一致，影響模型的泛化能力，應檢查並調整增強策略以維持語意一致性；

C增強樣本的比例過高，造成模型對特定資料產生偏好，應適度提高增強比例並調整學習率；

D增強後資料的標註可信度下降，導致訓練訊號偏差，應以半監督學習方式重新校正資料

第 10 題

如果希望同時兼顧「精確率（Precision）」和「召回率（Recall）」，下列哪一個指標可以作為綜合評估的標準？

A準確率（Accuracy）；

B均方根誤差（RMSE）；

C均方誤差（MSE）；

DF1分數（F1 Score）

第 11 題

企業資料分析團隊使用 DBSCAN（Density-Based Spatial Clustering of Applications with Noise）演算法進行顧客行為分群，並希望模型能自動區分主要群集與雜訊資料。在此演算法中，決定聚類結果的兩個主要超參數為下列何者？

A特徵數與學習率；

BK 值與距離閾值；

C鄰域半徑（Epsilon ε）與最小點數（MinPts）；

D交叉熵（Cross Entropy）與權重初始化

第 12 題

某金融科技公司建立房價預測模型，使用多項特徵（如建坪、房齡、樓層、總價等）進行線性迴歸分析（Linear Regression Analysis）。資料分析師發現多個特徵之間存在高度相關性，導致模型係數不穩定、預測誤差上升。為解決此問題，下列哪一種方法最適合？

A繼續保留所有特徵，不進行任何處理；

B使用主成分分析（PCA）將相關特徵轉換為彼此獨立的主成分；

C新增更多原始變數以提升模型表現；

D改用分類模型進行預測

第 13 題

下列何者為 Kubernetes在 AI模型部署與運行中的核心功能？

A自動化管理模型的訓練流程與參數調校；

B管理與協調模型服務的部署、擴展與運行環境；

C提供 AI 模型的資料儲存與版本控管功能；

D負責深度學習推論的 GPU 加速運算

第 14 題

在調整模型超參數（Hyperparameters）時，若希望避免因過度調整參數而導致過擬合，下列哪一種做法最有效提升模型的泛化能力？

A採用交叉驗證（Cross-Validation）於多組參數組合間反覆評估，選擇在驗證資料上表現最穩定的設定；

B使用早期停止機制（Early Stopping）監控訓練誤差並在收斂前停止訓練，以防模型學習過度；

C對輸入特徵進行標準化以減少特徵值差異帶來的過擬合風險；

D提高模型複雜度並使用更多超參數搜尋範圍，以確保模型能充分學習資料特徵

第 15 題

在企業導入的 MLOps（Machine Learning Operations）流程中， Model Registry 最常用於哪一個階段？

A用於設定運算資源與執行環境以確保訓練穩定；

B用於建立可重複使用的資料與特徵版本；

C用於集中管理模型版本、訓練紀錄與部署狀態；

D用於追蹤模型上線後的表現與漂移情況

第 16 題

下列哪一種情境中最適合使用「序列到序列（Seq2Seq）」模型？

A預測銷售趨勢曲線，輸出未來數值序列；

B辨識文本中出現的人名、地名與組織名稱等實體資訊；

C對輸入文本中的關鍵字進行頻率統計與可視化；

D將輸入文字轉換成語意等價的另一段文字，如自動翻譯或摘要生成

第 17 題

在自然語言處理中，檢索增強生成（Retrieval-Augmented Generation, RAG）是一種結合語言模型與向量搜尋的技術，可有效減少模型知識過時與產生幻覺的問題。若要建立一套高效能的 RAG系統，下列何者為在「檢索階段」最關鍵的挑戰？

A確保檢索到的文件能被完整納入語言模型的上下文視窗（Context Window）中進行生成；

B選擇使用 Faiss或 ScaNN等近似最近鄰搜尋函式庫；

C降低嵌入模型（Embedding Model）在高維空間中的計算成本與記憶體占用；

D避免向量檢索結果僅具語意相似但與查詢意圖無實質關聯的情況

第 18 題

當 Transformer 模型發生「注意力分布過於平均（Attention Collapse）」的情形時，導致模型無法有效聚焦於關鍵資訊，下列哪一項策略可有效改善此問題？

A提高 Query-Key點積（Dot Product）的縮放常數；

B在 Softmax 前加入高斯雜訊（Gaussian Noise）；

C使用 ReLU 函數取代 Softmax；

D對注意力權重施加稀疏化約束（Sparsity Constraint）

第 19 題

某研究團隊正在訓練一個針對低資源語言（如少數民族語言）的語言模型，但該語言僅有約 1萬筆語料可用。在訓練過程中出現明顯的過擬合現象，若希望在不新增真實語料的前提下提升模型的泛化能力，採用下列哪一種方法最為適合？

A將 Transformer 的隱藏層維度擴增至 1024，以提升表徵能力；

B採用反向翻譯（Back-Translation）技術，以生成額外目標語句的偽平行語料（Pseudo‑Parallel Corpus）；

C對詞嵌入矩陣（Embedding Matrix），施加 L1正則化以壓縮模型參數；

D將多語言 BERT（mBERT）中所有 Transformer層全部凍結以保留預訓練知識

第 20 題

在使用生成對抗網路（GAN）進行人臉影像生成時，若出現「模式崩潰」（Mode Collapse）現象，下列哪一種方法最常被用來有效解決此問題？

A在鑑別器中加入梯度懲罰（Gradient Penalty）以穩定訓練過程；

B採用 Wasserstein 距離（WGAN 損失）替代原始的 GAN 損失函數；

C對生成器輸入的潛在向量加入隨機擾動；

D使用多尺度鑑別器架構以提高對多樣性的判別能力

第 21 題

在多模態 AI 模型訓練或推論過程中，遇到某一模態資料缺失（例如僅有影像資料但缺少文本說明），下列哪一種策略最有效維持模型效能？

A以零向量或固定向量填充缺失模態輸入；

B訓練具備模態缺失感知能力的模型，使其適應缺失狀況；

C利用生成模型（如 GAN 或自迴歸模型）預測並補全缺失模態資料；

D直接捨棄缺少模態的樣本，避免干擾訓練或推論

第 22 題

某電商平台開發的顧客流失預測模型在上線數月後，預測準確率明顯下降。專案團隊懷疑顧客行為模式改變，導致模型輸入特徵的分佈與原始訓練資料不同，出現典型的資料漂移（Data Drift）問題。為了偵測並確認資料分佈是否發生變化，下列哪一種作法最合適？

A定期重新訓練模型以應對外部變化；

B提升模型複雜度以捕捉更多資料變異性；

C增加測試資料量以提高評估準確度；

D計算輸入特徵分佈間的 KL散度（KL Divergence）

第 23 題

某大型醫院即將部署一套輔助診斷的 AI系統，為降低對臨床流程的衝擊，同時確保風險可控與回饋可收斂，應採取何種『漸進式部署』（Phased Rollout）策略最為合適？

A從單一專科（如放射科）或特定病房開始啟用，逐步擴展至全院；

B先部署於病例量較高的急診單位，加速收集高頻使用回饋；

C僅在夜班或離峰時段啟用，避免影響主要臨床工作負載；

D在使用者界面啟用提示模式，讓全院同步體驗但不影響診斷流程

第 24 題

某金融機構的 AI風控系統遭受對抗性攻擊，駭客透過對輸入特徵進行微小但惡意的擾動，成功欺騙了模型。為了從根本上解決模型自身對這類攻擊的脆弱性，下列何者並非針對此種攻擊型態的技術手段？

A強化資料前處理，用以過濾掉格式不符或數值極端異常的輸入；

B在模型訓練階段導入對抗樣本訓練，以提升模型對惡意特徵擾動的辨識與防禦能力；

C於推論後階段使用規則引擎，以確保模型的預測結果不違反既有的業務硬性規定；

D在模型部署環境中強化網路防火牆，以阻擋來自未授權來源的網路連線

第 25 題

某企業部署生成式 AI系統協助行銷與內容產出，但近期遭質疑部分生成內容可能涉及著作權侵權。為降低企業在法律層面的潛在責任與風險，下列哪一項策略最能有效預防侵權問題產生？

A對生成內容進行語意相似度比對，自動標註可能涉及既有著作的輸出結果，以降低侵權風險；

B建立訓練資料篩選與授權驗證機制，排除未授權或高風險資料來源；

C在訓練與微調過程中採用差分隱私技術，避免模型記憶特定受著作權保護的樣本；

D在模型輸出端嵌入浮水印（Watermarking）或數位指紋（Digital Fingerprint）技術，以確保生成內容可追溯

第 26 題

在房價預測任務中，若發現特徵如「房間數」與「坪數」存在高度多重共線性（Multicollinearity），為降低共線性對模型參數估計的負面影響，應優先選擇下列哪種模型？

A不受多重共線性影響的決策樹模型；

B傳統線性迴歸模型，不含正則化項；

C支持向量機搭配線性核函數；

D含 L1正則化的 LASSO迴歸模型

第 27 題

某企業需分析半結構化的系統日誌（JSON格式），以提取關鍵的時序特徵供故障預測模型使用。考量日誌結構複雜且包含巢狀欄位（Nested Fields），下列哪一種策略最有效且實務可行？

A先將 JSON 資料扁平化轉成 CSV，再對欄位計算統計量（如均值、次數）作為特徵；

B使用遞歸神經網路（RNN）直接輸入原始 JSON字串進行時序特徵抽取；

C設計遞迴函式展開巢狀欄位，並基於時間窗口（Time Window）進行聚合與特徵萃取；

D只保留時間戳記欄位，忽略其他巢狀內容以簡化特徵工程

第 28 題

在一個同時包含連續型特徵與類別型特徵的資料集中，若希望透過適當的特徵工程流程來提升模型整體表現，下列哪一種作法最為合適？

A將類別型特徵使用標籤編碼（Label Encoding）轉換後，與連續特徵直接合併進行模型訓練；

B將連續特徵進行離散化（Discretization）或分桶（Binning）轉為類別型特徵，統一以類別方式處理；

C對連續特徵做標準化（Standardization），類別特徵採用目標編碼（Target Encoding），並生成交互特徵提升模型表現；

D只保留連續特徵，忽略類別型變量以簡化模型答案題目

第 29 題

某 AI開發團隊為提升模型開發效率及品質控制，計畫實施持續整合（Continuous Integration, CI）流程。下列哪一項做法最符合 CI 的核心實踐，且能有效減少整合風險？

A在主分支（Main Branch）每日固定時間手動合併並執行完整測試流程；

B每次程式碼提交（Commit）後自動觸發建置、單元測試及靜態程式碼分析；

C於模型訓練完成後，定期安排開發團隊回顧並合併程式碼；

D透過自動化部署腳本，將模型在特定時間點批次釋出到測試環境

第 30 題

某銀行計劃將 AI詐欺偵測模組整合至核心交易系統，主管機關要求全流程必須符合金融監管對「不可否認性（Non-repudiation）」的資訊安全規範，以確保日後能進行法務追蹤與稽核。下列哪一項措施最能確保此要求的落實？

A為每筆 AI模型推論記錄其輸入與輸出結果的加密雜湊值（Hash），並簽署數位簽章以確保不可竄改性；

B優化模型效能以降低平均推論延遲至 100ms以下，提升使用者體驗；

C增加主機備援數量，以確保系統在故障時持續可用；

D將模型推論請求導入負載平衡器，避免單點壅塞導致服務延遲

第 31 題

某 AI服務系統每次推論請求需約 1秒完成，且必須支撐高達 10,000 次請求每秒（RPS）的流量。為確保系統具備高可用性且能穩定應付流量峰值，下列哪一種架構方案最為合適？

A依賴單台超高效能伺服器進行垂直擴展，提升硬體規格；

B採用容器化部署並水平擴展服務實例，結合自動彈性伸縮機制（Auto Scaling）；

C限制最大併發連線數，以避免系統過載；

D增加批次處理大小，一次同時處理上千筆請求

第 32 題

某企業已將 AI模型部署於生產環境，為確保系統持續穩定運作，並能提前偵測模型效能可能衰退，技術團隊希望透過監控指標進行預警。下列哪一項監控指標最具預測效力，能提早發現模型效能下滑風險？

A系統 CPU 與記憶體使用率波動幅度；

B模型推論結果的置信度（Confidence）分佈變化趨勢；

CAPI平均回應時間與延遲百分位數變化；

D輸入特徵與訓練資料分布差異的 PSI（Population Stability Index）指數

第 33 題

企業團隊在使用 Word2Vec模型訓練客服文本語料時，若訓練資料量龐大且希望模型能更有效捕捉罕見詞的語意關聯，下列哪一種訓練策略最為適合？

A採用 Skip-gram模型，但以隨機初始化權重加快高頻詞的訓練收斂；

B採用 CBOW 模型（Continuous Bag of Words Model）並結合 TF- IDF權重以強化低頻詞表示；

C採用 Skip-gram模型，利用中心詞預測周圍詞語，能更有效學習低頻詞關係；

D採用 CBOW 模型（Continuous Bag of Words Model），利用周圍詞預測中心詞，能提升罕見詞的語意穩定度

第 34 題

在自駕車影像辨識系統中，開發團隊希望模型能同時辨識每個像素所屬的物件類別（例如道路、建築、行人），又能區分出同類物件的不同個體（例如多位行人）。此時最適合採用下列哪一項電腦視覺技術？

A語義分割（Semantic Segmentation）；

B物件偵測（Object Detection）；

C實例分割（Instance Segmentation）；

D全景分割（Panoptic Segmentation）

第 35 題

某媒體公司計畫導入 CLIP（Contrastive Language–Image Pre- training）模型，以協助大量影像自動標註與搜尋，並希望在無需新增標訓資料的情況下，僅透過文字提示（Text Prompt）即可識別影像內容。請問此應用情境中，CLIP能夠達成的關鍵技術特性為何？

A透過圖文對比式學習（Contrastive Learning）將影像與文字映射至共同嵌入空間（Shared Embedding Space），可直接以語意相似度進行零樣本分類；

B透過影像增強與特徵擴散降低標訓資料需求；

C以監督式學習結合多層感知器（Multilayer Perceptron, MLP）進行影像特徵分類；

D以自迴歸生成模型（Autoregressive Model）逐步生成文字標籤描述影像內容

第 36 題

某資料科學團隊在開發預測模型時，針對多種模型設定（如學習率、樹深度、正則化係數等）進行系統化測試，希望找出在驗證資料上表現最穩定的組合。此過程最可能採用下列哪一種方法？

A使用交叉驗證（Cross Validation）反覆評估模型以降低過擬合風險；

B透過網格搜尋（Grid Search）在多組超參數設定中進行系統化搜尋與評估；

C以隨機搜尋（Random Search）快速探索部分參數空間以提升搜尋效率；

D採用貝葉斯優化（Bayesian Optimization）根據歷次結果動態調整搜尋方向

第 37 題

某公司正在訓練一個大型語音合成模型，開發團隊使用多台 GPU 進行訓練，但經常出現 GPU 記憶體不足問題。由於模型架構已固定且無法更換硬體，團隊希望在維持模型效能與收斂品質的前提下，下列哪一種方法最有效降低單張 GPU 的記憶體壓力？

A減少訓練資料量以降低記憶體使用；

B採用較小的批次大小（Batch Size）並搭配資料分片（Data Sharding）分散訓練負載；

C增加學習率（Learning Rate）以加快收斂速度；

D改用測試資料集（Test Set）進行部分訓練以節省空間

第 38 題

某影像設計團隊在使用 Stable Diffusion生成 4K級產品圖時，發現影像邊緣與細節存在顆粒化與模糊現象。若僅能在生成階段進行調整，希望提升畫面清晰度與紋理層次，同時避免過度平滑，下列哪一項作法最適合？

A降低取樣步數，以縮短生成時間；

B增加取樣步數並選擇高品質取樣器，以強化細節還原度；

C提高 CFG（Classifier-Free Guidance）值，使生成結果更具創意與多樣性；

D改用低解析度輸入以降低計算成本

第 39 題

某企業的資料科學團隊利用 ARIMA模型（AutoRegressive Integrated Moving Average Model）預測每週產品銷售量。模型建立完成後，分析人員發現預測誤差隨時間呈現週期性波動，且自相關函數（ACF）顯示殘差在多個時滯（Lag）上仍顯著不為零。根據上述現象，最合理的模型診斷結論為何？

A模型殘差符合白噪音（White Noise）假設，預測表現穩定；

B模型殘差雖有輕微異常，但可視為隨機誤差忽略不計；

C模型存在配適不足（Underfitting）問題，需重新調整 p 或 q 參數以捕捉時間依賴性；

D殘差特性不影響預測結果，無須進一步修正

第 40 題

下列哪一項最正確地描述了 VAE（Variational Autoencoder）、GAN （Generative Adversarial Network）與擴散模型（Diffusion Model）在多模態潛在空間對齊（Latent Alignment）與生成策略上的根本差異？

AVAE透過顯式潛在變數建模實現跨模態對齊，適合捕捉整體語意結構但生成解析度有限；GAN透過對抗損失（Adversarial Loss）在不同模態間學習分佈映射，生成品質高但穩定性差；擴散模型則以條件化噪聲反推（Conditional Denoising）方式實現高保真跨模態生成，兼具穩定性與多樣性；

BVAE與 Diffusion Ｍodel均屬隱式生成架構，主要依賴對抗式訓練實現跨模態對齊；GAN則以顯式後驗估計方式提升樣本一致性；

CVAE與 GAN 均使用馬爾可夫鏈（Markov Chain）進行跨模態轉換； Diffusion Model 則透過 KL散度最小化學習語意對應。；

D三者在多模態應用中皆依賴同一潛在表徵空間（Shared Latent Space），僅在解碼器結構不同而已

第 41 題

在進行超參數調校（Hyperparameter Tuning）時，若直接在 K-Fold 交叉驗證（Cross-Validation）的資料上同時調整模型參數並評估效能，最可能導致下列哪一種問題？

A模型的交叉驗證結果出現過度樂觀偏差（Over-optimistic Bias），因測試摺資料間接參與參數選擇，造成資料洩漏（Data Leakage）；

B模型會在每一摺（Fold）內反覆調整參數，導致訓練不穩與過度正則化；

C因交叉驗證資料被重複使用，造成效能方差增大，無法獲得穩定估計；

DK-Fold 交叉驗證的假設與超參數搜尋相衝突，導致驗證過程失效

第 42 題

若部署一個深度學習模型至金融風控系統，該模型採用鑑別式架構（如 Transformer Classifier）。然而上線後，模型對新樣本的分類錯誤率顯著上升，經檢查發現，輸入資料分佈已與原訓練集明顯不同。針對此情形，下列哪一種應對策略最為適合？

A改用生成對抗網路（GAN）生成新樣本並混入訓練集；

B改用邏輯迴歸模型（Logistic Regression）以提升穩定性；

C增加模型容量（Model Capacity），以學習更多樣本差異；

D使用變分自編碼器（VAE）監控潛在空間分佈，偵測輸入資料偏移

第 43 題

某金融科技公司欲導入 AI模型協助客服郵件自動分類（投訴、詢問、表揚）。團隊同時考慮兩種模型設計：方案 A（生成式路徑）：採用 VAE建構潛在語意空間，再結合下游分類器進行標籤預測；方案 B（鑑別式路徑）：採用 BERT Classifier 直接根據輸入文本進行監督式分類。現有標註資料約 2,000 筆，資料分佈均勻但擴充成本高。若團隊希望公平比較兩種模型的資料利用效率與泛化能力，下列哪一種實驗設計最能突顯兩者的本質差異？

A在完整資料集上分別訓練兩者，並比較其分類準確率（Accuracy）與推論時間；

B在低資源情境（Low-resource Setting）下，逐步減少標註比例（100%、50%、10%），比較其 F1-score；

C使用 GAN 自動生成文本樣本補足資料，觀察兩模型在資料增強後的精確率（Precision）差異；

D在相同訓練資料上固定輸入維度，僅調整模型參數量，比較其對過擬合的敏感度

第 44 題

某電信公司希望建立一個模型來預測顧客是否即將流失，並進一步模擬不同促銷或服務策略下顧客的行為變化，以生成多樣化的虛擬樣本資料進行 A/B 測試與行銷策略評估。若要同時兼顧預測與資料生成的需求，最適合採用下列哪一種方法？

A使用傳統隨機森林（Random Forest）；

B使用邏輯迴歸（Logistic Regression）模型；

C使用變分自編碼器（Variational Autoencoder, VAE）或生成對抗網路（Generative Adversarial Network, GAN）；

D使用強化學習代理（Reinforcement Learning Agent）

第 45 題

進行影像分類任務時，研究團隊嘗試利用主成分分析（Principal Component Analysis, PCA）將輸入特徵從 1024維降至 100維，並將降維後的資料輸入支持向量機（Support Vector Machine, SVM）模型進行訓練。關於此作法，下列哪一項描述最為合理？

APCA保留的主成分必然能提升 SVM的分類準確率；

B使用原始高維資料通常更能保留資訊，因此 PCA沒有實際意義；

CPCA可讓 SVM自動適用於非線性（Nonlinear）資料集；

D降維後可降低訓練時間並減少過擬合（Overfitting）風險

第 46 題

某企業的 AI 模型已部署於線上服務環境中，用於即時預測顧客流失機率。近期團隊注意到模型預測準確率逐漸下降，但系統運作正常且未出現錯誤訊息。經分析發現，近期輸入資料的分布與模型訓練資料相比出現顯著偏移。若要在 MLOps流程中主動偵測並預警此類問題，最應採用下列哪項措施？

A建立即時的資料漂移（Data Drift）與概念漂移（Concept Drift）監測機制；

B將模型轉換為量化版本以降低延遲；

C增加模型超參數調整次數以強化適應性；

D使用固定隨機種子（Random Seed）確保訓練穩定

第 47 題

某金融科技公司導入多任務學習架構，讓單一 Transformer 模型同時執行 OCR（Optical Character Recognition）後的文檔分類以及命名實體辨識（Named Entity Recognition, NER）任務，以協助自動歸檔與抽取關鍵金融資訊。在部署初期，團隊發現當模型的 NER準確率（Accuracy）提升時，文檔分類準確率反而下降。若模型架構正確且資料品質良好，下列哪一項最可能是造成此現象的原因？

A模型架構無法同時支援文字分類與序列標註任務（Sequence Labeling）；

B文檔分類任務不需要語意化表徵（Contextualized Representation）；

C損失函數（Loss Function）未進行權重平衡，導致任務間競爭；

D所使用的 BERT模型無法支援多任務輸出頭（Multi-Head Outputs）

第 48 題

某數據工程師使用 DBSCAN演算法對一份數百萬筆的高維顧客資料進行聚類分析，但發現程式執行速度極慢，甚至出現記憶體不足的情況。若要在不改變演算法核心邏輯的前提下，最有效提升其運算效率的作法為何？

A改用以平均連結（Average Linkage）為基礎的階層式群集法（Hierarchical Clustering）；

B採用高效率的距離索引結構（Distance Index Structure），例如 KD-Tree 或 Ball Tree；

C將 ε（Epsilon）參數調得極小，以減少鄰近點的數量；

D在資料前處理時增加標準化後的特徵維度數

第 49 題

某電商平台導入 AI情感分析模型，用以自動偵測顧客評論中的負面情緒並觸發客服機制。然而，上線後發現模型在面對不同語言或族群書寫風格的評論時表現不一致，例如部分語氣強烈的正面評論被誤判為負面，而禮貌但含批評意圖的評論卻被判為中性。若從技術與資料治理的角度分析，下列哪一項描述不正確？

A模型未啟用詞嵌入正規化（Embedding Normalization）可能造成語意距離不穩定，導致預測誤差；

B訓練語料若偏向特定文化或語氣特徵，可能使模型產生內隱偏誤（Implicit Bias）；

C模型若訓練資料來源不平衡，容易導致對不同語言或族群風格的情緒判斷不準確；

DTransformer 架構能捕捉上下文語意，但若訓練資料偏差仍存在，模型仍可能學習到偏誤判斷

第 50 題

某設計師使用公司內部建置的生成式 AI工具製作行銷素材，並輸入提示語（Prompt）：「請生成一張模特兒手持品牌飲料、背景為海邊夕陽的照片」。系統能正確生成主要主題與場景，但輸出的圖像中，品牌標誌顏色常有誤差，或人物手部姿勢顯得不自然。若從多模態生成模型的技術機制分析，此現象最可能是下列哪一項原因所造成？

A擴散式生成模型的去雜訊過程出現隨機梯度漂移，導致影像像素錯誤；

B提示語過長造成 Transformer 的位置編碼超出上下文限制，導致生成混亂；

CCLIP 模型中的文字編碼器與影像編碼器在語意嵌入空間未充分對齊，導致跨模態理解偏差；

D模型未採用對比學習（Contrastive Learning）損失函數，無法建立多模態語意關聯《以下空白》

第 1 題

某零售企業建立一個銷售預測模型，希望評估該模型在不同月份的新資料上，是否仍能維持穩定的預測表現。資料科學團隊計畫利用統計方法檢驗模型對未觀察資料的適應能力與泛化效果。下列哪一種方法最適合用於此目的？

AF檢定（F-test）

B交叉驗證（Cross-Validation）

C配對樣本 t 檢定（Paired-sample t-test）

D卡方檢定（Chi-square Test）

第 2 題

在建立迴歸或分類模型時，若希望避免模型過度擬合（Overfitting），可透過加入正則化項以限制模型的複雜度。其中，L1 正則化（Lasso）的主要效果為何？

A增加模型參數的數量，以提升表現靈活度

B強化梯度穩定性，避免參數更新過度震盪

C產生稀疏模型（Sparse Model），使部分參數權重收斂為零

D提高學習率（Learning Rate），加速模型收斂速度

第 3 題

在訓練非線性模型時，若目標函數為非凸函數（Non-convex Function），演算法在參數更新過程中可能出現多個極值點，導致最佳化結果不穩定。請問此時最可能發生下列哪一種情況？

A梯度消失

B資料過少

C局部最優解

D過擬合

第 4 題

在執行 DBSCAN（Density-Based Spatial Clustering of Applications with Noise）群集分析時，若某資料點鄰域內的樣本數不足以形成核心點（Core Point），且該點未被任何核心點的鄰域所包含，也未與其他群集形成密度可達關係（Density Reachability），此資料點最終將被歸類為哪一種類型？

A鄰近點（Neighbor Point）

B雜訊點（Noise Point）

C邊界點（Border Point）

D潛在點（Potential Point）

第 5 題

某智慧製造公司開發一套影像辨識系統，用於自動檢測生產線上的瑕疵產品。系統採用卷積神經網路（Convolutional Neural Network, CNN）作為主要模型架構，其中第一層卷積層（Convolutional Layer）主要負責的功能為下列何者？

A自動提取輸入影像中的局部特徵

B降低影像維度以加速運算效率

C增加神經元與參數數量以提升模型容量

D整合所有特徵並輸出最終分類結果

第 6 題

某智慧城市團隊開發一套交通監控系統，用於即時辨識路口監視器影像中的車輛與行人。團隊比較後發現，卷積神經網路（Convolutional Neural Network, CNN）在訓練與推論效率上，明顯優於傳統的全連接神經網路（Fully Connected Neural Network, FCNN）。請問下列何者為主要原因？

ACNN 能自動學習影像的旋轉與比例不變性

BCNN 可直接跳過人工特徵提取步驟進行分類

CCNN 透過區域感知（Local Receptive Field）與參數共享（Parameter Sharing）機制，降低模型參數量與運算複雜度

DCNN 捨棄激勵函數（Activation Function），以加快運算速度

第 7 題

下列哪一種應用最適合採用長短期記憶網路（Long Short-Term Memory, LSTM）模型？

A預測未來七天的電力需求變化趨勢

B辨識監視影像中不同類別的物件

C將大量顧客資料依相似特徵自動分群

D將高維度的感測器資料壓縮成低維表示

第 8 題

資訊增益（Information Gain）常用於衡量特徵對分類結果的不確定性貢獻程度，並據以進行特徵選擇。此方法主要應用於下列哪一類模型架構中？

A使用 L1 正則化進行特徵篩選的線性模型

B利用激活函數（Activation Function）進行特徵擷取的深度神經網路

C透過核函數（Kernel Function）將特徵映射至高維空間的分類模型

D透過遞迴分裂方式建立分類規則的決策樹模型

第 9 題

在建構以距離為基礎的機器學習模型（如 KNN、SVM）時，下列哪一項資料前處理方式最為關鍵？

A進行特徵縮放（Feature Scaling），使各特徵變數具有相似的數值範圍

B將連續型特徵變數轉換為類別型變數

C以平均值或中位數進行缺失值補齊

D進行隨機抽樣以平衡資料筆數

第 10 題

下列哪一種應用情境最適合導入 AutoML，以提升模型開發效率？

A公司已有完整的 MLOps 平台與資深資料科學團隊，模型更新採固定流程

B製造部門的生產良率模型已長期穩定運作，只需定期調整參數

C行銷部門希望在短時間內比較多種顧客流失預測模型，缺乏專職工程師與時間進行手動建模

D財務部門正在開發高度客製化的信用風險評估模型，需要精細控制特徵工程與演算法細節

第 11 題

相較於 Grid Search，Random Search 在超參數調整上具備哪一項主要優勢？

A可自動產生模型架構

B可使用更大的訓練集

C避免模型過擬合

D能更有效率搜尋高維參數空間

第 12 題

某智慧製造公司開發一套設備故障預測系統，利用感測器資料訓練深度神經網路（Deep Neural Network, DNN）模型，以提前偵測異常運作跡象。在訓練過程中，團隊發現模型收斂速度不穩定：有時過快導致過擬合，有時又遲遲無法達到最佳準確率。開發團隊可以藉由調整下列哪一項超參數（Hyperparameter）以改善此問題？

A每個神經元的輸出結果

B損失函數（Loss Function）在訓練過程中的梯度變化值（Gradient）

C學習率（Learning Rate），控制模型權重更新的速度

D模型在訓練後產生的權重值

第 13 題

標籤偏差（Label Bias）通常是因為什麼原因造成？

A訓練資料量過大

B標記資料本身帶有主觀偏見

C模型結構設計不當

D特徵數量設定過多

第 14 題

下列哪一種 AI 應用情境中，模型的可解釋性（Explainability）最為關鍵？

A電商平台利用深度學習模型預測用戶的下一次購買時間，以優化推播行銷策略

B新創公司使用機器學習演算法自動調整廣告出價策略，以提升點擊轉換率

C醫院導入 AI 模型分析病患影像並給出腫瘤惡性可能性，作為臨床醫師診斷依據

D銀行導入 AI 模型預測客戶流失率，並自動推薦留客優惠方案

第 15 題

在線性迴歸模型中，若 R² 值為 0.85，其意義為何？

A模型準確率為 85%

B85% 的變異可被模型解釋

C預測誤差為 15%

D模型有 85% 的信心水準

第 16 題

在二元分類問題中，若精確率（Precision）為 0.8，召回率（Recall）為 0.6，則 F1 分數（F1 Score）為何？

A0.686

B0.700

C0.720

D0.750

第 17 題

下列哪一種優化演算法內建動量（Momentum）的設計機制？

ASGD+Momentum

BAdam

CRMSProp

DAdagrad

第 18 題

下列何者最能同時反映 XGBoost（eXtreme Gradient Boosting）相較於傳統梯度提升決策樹（Gradient Boosting Decision Tree, GBDT）的主要技術改進？

A引入正則化項（Regularization）以抑制過擬合，並支援缺失值自動處理與並行化訓練

B改以隨機森林（Random Forest）架構取代樹模型以提升準確率

C以類神經網路（Neural Network）取代弱分類器（Weak Learners）

D採用批次正規化（Batch Normalization）技術提升模型穩定性

第 19 題

某醫療機構開發疾病早期偵測模型，正樣本（確診病例）僅佔 3%。在模型訓練與評估過程中，下列哪一種作法最不適合用於提升對少數類病例的預測能力？

A使用 SMOTE 過採樣

B調整類別權重

C使用準確率（Accuracy）作為評估指標

D欠採樣多數類（Undersampling the majority class）

第 20 題

某電子商務公司為開發商品評論情感分析模型，希望模型能捕捉評論中不同特徵之間的關聯影響，例如「商品價格」與「顧客滿意度」的互動效果。下列哪一種特徵工程設計方式最適合用於建立互動特徵（Interaction Features）？

A將單一特徵取平方

B對所有特徵進行對數轉換

C將兩個或多個特徵進行乘積或交互組合

D對特徵進行標準化

第 21 題

某語音辨識系統開發團隊採用 Transformer 架構，為了讓模型能同時理解語音片段中的發音特徵、語速變化與語意脈絡等多層次資訊，團隊在設計中導入了多頭注意力（Multi-head Attention）機制。請問下列何者為此機制的主要優點？

A減少模型參數量以降低訓練成本

B加速整體注意力計算過程

C從不同表示子空間（Representation Subspaces）同時捕捉多樣化關聯資訊

D避免梯度消失（Gradient Vanishing）問題

第 22 題

某電商平台希望預測顧客是否會購買特定商品。系統蒐集顧客的瀏覽紀錄、停留時間、商品類別偏好與過去購買行為，並以此推估「在觀察到這些行為特徵的情況下，該顧客會購買的機率」。若模型採用貝氏定理（Bayes' Theorem）進行推論，下列敘述何者最符合其核心運作機制？

A根據歷史樣本自動分群，找出行為相似的顧客群

B以條件機率方式計算顧客屬於「會購買」或「不會購買」的分類機率

C以最小平方誤差（Mean Squared Error）為損失函數，預測顧客的購買金額

D依據回饋信號（Feedback Signal）透過強化學習（Reinforcement Learning）動態調整推薦策略

第 23 題

一家再生能源公司希望預測未來三個月太陽能發電量的波動範圍。由於氣候條件具有高度隨機性，且輸入變數（如日照時數、雲量、溫度）之間存在不確定關係，工程團隊決定以隨機抽樣方式模擬多種可能情境，以估算整體發電量的機率分佈與風險區間。請問此時所採用的技術最符合下列哪一種方法？

A蒙地卡羅方法（Monte Carlo Method）

BK-means 聚類（K-means Clustering）

C支持向量迴歸（Support Vector Regression, SVR）

D特徵選取（Feature Selection）

第 24 題

某房地產公司利用多元迴歸模型（Multiple Regression Model）預測房價，並繪製殘差圖（Residual Plot）檢查模型品質。結果顯示部分資料點的殘差極大，且在高價區樣本中出現系統性彎曲分佈現象。根據此觀察，下列何者為最可能的正確解釋？

A模型過度擬合（Overfitting），導致在訓練資料上表現過好、泛化能力不足

B模型特徵數量不足，導致欠擬合（Underfitting）

C模型存在異常值（Outlier）或非線性關係，違反迴歸假設

D殘差圖呈現隨機分佈，表示模型已完全符合所有假設

第 25 題

某金融機構正在建立傳統信用評分卡模型，採用邏輯迴歸（Logistic Regression）作為建模方法，並依循監理機關建議的標準化流程進行模型開發。下列哪一項不是傳統信用評分卡模型開發流程中的常見步驟？

A使用生成式模型進行特徵學習

B進行特徵選擇與多重共線性（Multicollinearity）分析

C進行分箱（Binning）與資訊值（Information Value, IV）檢定

D使用樣本穩定性指標（Population Stability Index, PSI）檢驗模型穩定性

第 26 題

在防止監督式學習模型過擬合（Overfitting）時，下列哪一種策略不屬於降低模型複雜度或限制學習能力的作法？

A採用 L1 或 L2 正則化

B在訓練過程中使用 Dropout 技術

C採取早期停止（Early Stopping）機制

D擴增輸入特徵變數以提升模型表達能力

第 27 題

某智慧製造團隊在開發瑕疵影像檢測模型時，發現使用線性激活函數（Activation Function）後，模型的訓練準確率長期停滯，懷疑模型無法學習到足夠複雜的特徵表達。若要改善此問題，下列哪一項調整方案最為合適？

A增加卷積層（Convolutional Layer）數量，使網路更深以強化特徵提取

B將輸入影像先進行灰階化處理，降低運算量

C使用 Sigmoid 激活函數，以將輸出壓縮至 [0,1] 範圍

D改用 ReLU（Rectified Linear Unit）激活函數，以引入非線性並提升模型表達能力

第 28 題

一家零售電商公司希望建立顧客流失預測模型，用以判斷哪些會員可能在三個月內不再消費。團隊以去年會員資料進行訓練，並僅採用「曾經購買三次以上」的活躍顧客紀錄作為樣本。模型上線後，對整體會員進行預測時，發現模型對於新註冊會員與低消費會員的預測準確率明顯偏低。下列何者為造成此現象最可能的原因？

A特徵設計未排除與會員忠誠度高度相關的變數，導致特徵偏差（Feature Bias）

B標記（Label）由人工標註，導致標籤偏差（Label Bias）

C訓練樣本僅涵蓋高活躍顧客，造成取樣偏差（Sampling Bias）

D模型未進行超參數調整，導致過擬合（Overfitting）

第 29 題

在工業設備故障預測專案中，模型訓練與超參數調整均依賴於一段歷史數據作為驗證集。然而，隨著設備運行環境與工況條件的變化，原有驗證集已無法充分反映現況，導致模型在實際部署後的預測準確率逐漸下降。下列哪一種策略最能有效提升模型在長期運行環境中的穩健性與泛化能力？

A固定驗證集內容，並透過模型正則化技巧（如 L2 正則化）強化模型泛化

B將全部歷史資料納入訓練，不使用驗證集，依靠早期停止（Early Stopping）控制訓練

C簡化模型架構，減少模型參數數量以降低過擬合風險

D採用時間序列交叉驗證（Time Series Cross Validation）或滑動視窗驗證（Rolling Window Validation）方法，動態更新驗證資料以適應時間演進

第 30 題

某情感分析模型在英文資料集上取得 macro F1-score = 0.91。當該模型部署於西班牙文資料集時，F1-score 驟降至 0.58。下列哪一項解釋最合理，且與 F1-score 變化相關？

Amacro F1-score 本身波動性高，建議改用 micro-average F1-score 評估

B模型在西班牙文語料上過度擬合，導致評估結果偏高

C語言轉移造成召回率（Recall）下降，模型無法正確辨識關鍵情緒詞彙

D以均方誤差（MSE）取代 F1-score 評估可獲得更準確的結果

第 31 題

某能源公司利用歷史氣象與用電資料，開發長期電力需求預測模型，採用深度神經網路架構進行訓練。在訓練過程中，模型在訓練集上的損失值持續下降，但在驗證集上，損失在第 80 輪後開始波動，呈現週期性上升與下降。團隊懷疑模型受到季節性資料波動與隨機噪音影響，導致驗證損失難以穩定收斂。若要在此情境下合理運用早期停止法（Early Stopping）以確保模型具最佳泛化能力，下列哪一項策略最為適當？

A直接根據訓練集損失最低點停止訓練，以確保模型充分擬合所有樣本

B監控驗證集損失並設定適度的耐心值（Patience），在連續多輪未改善後再停止訓練

C改以測試集損失作為早停依據，以提升模型最終評估一致性

D將所有資料重新合併後訓練至收斂，避免因資料分割導致評估波動

第 32 題

某電信公司開發客戶流失預測模型，使用大量顧客行為特徵，例如通話時長、上網頻率、帳單金額、客服聯絡次數等。在訓練過程中，團隊發現部分特徵彼此高度相關，但同時也懷疑有些特徵對流失預測的貢獻度有限。若希望模型在避免過擬合（Overfitting）的同時，能自動篩選出較具代表性的特徵，採用下列哪一種方法最為合適？

A使用早期停止法（Early Stopping）控制訓練回合數，避免過擬合（Overfitting）

B同時移除多重共線性特徵並採用 L2 正則化（Ridge），以確保模型穩定收斂

C僅使用 L2 正則化（Ridge），抑制所有權重幅度但保留全部特徵

D採用 L1 正則化（Lasso），透過懲罰項使部分特徵係數縮為 0

第 33 題

某資料科學團隊正在開發一個客戶相似度比對系統，用於計算所有客戶之間的相似度分數。若系統需逐一比對每一位客戶與其他所有客戶的資料組合，此時演算法的時間複雜度最可能為哪一種？其代表意義為何？

AO(n) — 執行時間與資料量成線性關係

BO(n²) — 執行時間與資料量平方成正比

CO(1) — 執行時間固定不變

DO(log n) — 執行時間與資料量呈對數成長關係

第 34 題

某醫療人工智慧團隊正在開發心臟病風險預測模型，資料量僅有 150 筆，其中陽性個案不到 8%。由於樣本數稀少且類別分布極不平衡，團隊希望在有限資料下，仍能準確評估模型在不同資料上的表現穩定性，同時避免訓練資料被過度切分而影響模型效能。若團隊希望在有限樣本下，同時兼顧資料的利用率與各類別在驗證折中的比例一致性，最適合採用下列哪一種交叉驗證方法？

A5-Fold 交叉驗證（5-Fold Cross Validation）

B留一法交叉驗證（Leave-One-Out Cross Validation）

C隨機交叉驗證（Random Cross Validation）

D分層留一法交叉驗證（Stratified Leave-One-Out Cross Validation）

第 35 題

某公司針對製程感測器資料進行主成分分析（PCA），經標準化與協方差矩陣分解後，得到三個主成分的特徵值如下：λ₁=6.0、λ₂=3.0、λ₃=1.0。若團隊決定僅保留能解釋至少 80% 總變異量的主成分，以進行後續模型建構，下列哪一項敘述最合理且數據解讀正確？

A前兩個主成分合計解釋 90% 的總變異量，因此可安全降維至二維，且仍保留大部分資訊

B第一主成分解釋 60% 的變異量，表示資料結構呈現明顯線性關係，僅保留一維即可避免過擬合

C雖然前兩個主成分可解釋超過 80% 變異量，但第二主成分貢獻仍高達 30%，不宜捨棄第三主成分

D三個特徵值相差不大，顯示各主成分變異均衡，降維可能導致資訊損失

第 36 題

某銀行計畫與多家合作機構共同訓練一個 AI 信用風險預測模型，為避免客戶交易資料在傳輸與運算過程中外洩，技術團隊評估使用同態加密（Homomorphic Encryption）技術。下列何者最能正確描述同態加密在此應用中的關鍵特性？

A系統以隨機雜訊（Noise）干擾輸出，確保統計結果不洩漏個資

B各參與銀行透過安全通道交換私鑰，確保模型參數一致

C將原始資料壓縮並同時加密，以減少加密後資料量與運算時間

D資料在加密狀態下仍可進行數值運算，模型訓練可於未解密資料上完成

第 37 題

某跨銀行風控平台希望整合多家銀行的用戶行為資料，用於訓練信用風險預測模型。由於競爭與法規限制，各銀行僅願意提供加密後資料，且資料在任何時間不得被平台解密。同時，平台需建立安全通訊協議以確保資料在傳輸過程未被竄改或重放。下列哪一組技術最能完整對應上述需求？

A對稱加密（Symmetric Encryption）+ 單向雜湊（Hash Function）+ 非對稱加密（Asymmetric Encryption）+ 差分隱私（Differential Privacy）

B同態加密（Homomorphic Encryption）+ 非對稱加密（Asymmetric Encryption）+ 單向雜湊（One-way Hash Function）+ 對稱加密（Symmetric Encryption）

C差分隱私（Differential Privacy）+ 對稱加密（Symmetric Encryption）+ 同態加密（Homomorphic Encryption）+ 數位簽章（Digital Signature）

D同態加密（Homomorphic Encryption）+ 安全多方計算（Secure Multi-party Computation, MPC）+ 雜湊函數（Hash Function）+ 對稱加密（Symmetric Encryption）

第 38 題

附圖程式碼所計算的是哪一類型的評估指標？

def metric(y_true, y_pred):
    return sum((y_true - y_pred) ** 2) / len(y_true)

AMAE

BMSE

CRMSE

DR²

第 39 題

附圖程式碼實現的是哪一種正則化技術？

def forward(x, p, training=True):
    if training:
        mask = np.random.binomial(1, p, size=x.shape)
        return x * mask / p
    else:
        return x

AL1 正則化

BL2 正則化

CDropout

DBatch Normalization

第 40 題

依據附圖程式碼進行資料處理，下列何者正確？

import numpy as np
v1 = np.array([1, 2, 3])
v2 = np.array([4, 5, 6])
A = np.array([[1, 2], [3, 4]])

Anp.linalg.inv(A) 計算矩陣 A 的行列式

Bv1 * v2 結果為 array([5, 7, 9])

Cnp.dot(v1, v2) 結果為 np.int64(32)

Dnp.linalg.eig(A) 計算矩陣 A 的反矩陣

第 41 題

考慮擲出骰子並採用 Monte Carlo 方法估算條件機率，參考附圖程式碼。請問下列何者為條件機率 P(A|B) 的正確值？

import numpy as np
np.random.seed(123)
n = 100000
dice_rolls = np.random.randint(1, 7, size=n)
A = (dice_rolls % 2 == 0)
B = (dice_rolls > 3)
A_and_B = A & B

# 事件 A：擲出偶數
# 事件 B：擲出大於 3

AA_and_B.sum() / (A.sum() * B.sum())

BA_and_B.sum() / (A.sum() + B.sum())

CA_and_B.sum() / A.sum()

DA_and_B.sum() / B.sum()

第 42 題

在深度神經網路中，不同層的參數量（parameter count）差異極大。有些層雖然數量少但計算量大，有些則相反。了解參數分佈情形，有助於模型壓縮與遷移學習設計。請問在 VGG16 中，下列何者的參數量最多？

📦 題組 42-45｜共用情境
VGG16 是由牛津大學 Visual Geometry Group（VGG）在 2014 年提出的經典卷積神經網路（CNN）架構。該模型以簡潔且規則的層堆疊設計聞名，廣泛應用於影像分類、特徵提取及遷移學習等任務。附圖程式碼載入了預訓練的 VGG16 模型，並輸出其完整層級結構及參數統計摘要。

from torchsummary import summary
from torchvision import models

model = models.vgg16(weights='IMAGENET1K_V1')
summary(model, (3, 150, 150))

----------------------------------------------------------------
Layer (type)               Output Shape         Param #
----------------------------------------------------------------
Conv2d-1            [-1, 64, 150, 150]           1,792
ReLU-2              [-1, 64, 150, 150]               0
Conv2d-3            [-1, 64, 150, 150]          36,928
ReLU-4              [-1, 64, 150, 150]               0
MaxPool2d-5         [-1, 64, 75, 75]                 0
Conv2d-6            [-1, 128, 75, 75]           73,856
ReLU-7              [-1, 128, 75, 75]                0
Conv2d-8            [-1, 128, 75, 75]          147,584
ReLU-9              [-1, 128, 75, 75]                0
MaxPool2d-10        [-1, 128, 37, 37]                0
Conv2d-11           [-1, 256, 37, 37]          295,168
ReLU-12             [-1, 256, 37, 37]                0
Conv2d-13           [-1, 256, 37, 37]          590,080
ReLU-14             [-1, 256, 37, 37]                0
Conv2d-15           [-1, 256, 37, 37]          590,080
ReLU-16             [-1, 256, 37, 37]                0
MaxPool2d-17        [-1, 256, 18, 18]                0
Conv2d-18           [-1, 512, 18, 18]        1,180,160
ReLU-19             [-1, 512, 18, 18]                0
Conv2d-20           [-1, 512, 18, 18]        2,359,808
ReLU-21             [-1, 512, 18, 18]                0
Conv2d-22           [-1, 512, 18, 18]        2,359,808
ReLU-23             [-1, 512, 18, 18]                0
MaxPool2d-24        [-1, 512, 9, 9]                  0
Conv2d-25           [-1, 512, 9, 9]          2,359,808
ReLU-26             [-1, 512, 9, 9]                  0
Conv2d-27           [-1, 512, 9, 9]          2,359,808
ReLU-28             [-1, 512, 9, 9]                  0
Conv2d-29           [-1, 512, 9, 9]          2,359,808
ReLU-30             [-1, 512, 9, 9]                  0
MaxPool2d-31        [-1, 512, 4, 4]                  0
AdaptiveAvgPool2d-32 [-1, 512, 7, 7]                 0
Linear-33           [-1, 4096]               102,764,544
ReLU-34             [-1, 4096]                       0
Dropout-35          [-1, 4096]                       0
Linear-36           [-1, 4096]                16,781,312
ReLU-37             [-1, 4096]                       0
Dropout-38          [-1, 4096]                       0
Linear-39           [-1, 1000]                4,097,000
================================================================
Total params: 138,357,544
Trainable params: 138,357,544
Non-trainable params: 0
----------------------------------------------------------------
Input size (MB): 0.26
Forward/backward pass size (MB): 96.93
Params size (MB): 527.79
Estimated Total Size (MB): 624.98
----------------------------------------------------------------

A卷積層（Conv2d）

B全連接層（Linear）

CReLU 激活函數

D池化層（MaxPool2d, AdaptiveAvgPool2d）

第 43 題

在神經網路中，了解各層的運算量分佈，有助於模型壓縮與硬體加速的策略設計。請問在 VGG16 中，下列何者運算量（FLOPs）最多？

📦 題組 42-45｜參考第 42 題的 VGG16 模型架構

A卷積層（Conv2d）

B全連接層（Linear）

CReLU 激活函數

D池化層（MaxPool2d, AdaptiveAvgPool2d）

第 44 題

VGG16 層數深且結構規則，由多層卷積、池化及全連接層組成。了解各層的輸入/輸出維度、參數量及記憶體需求，有助於掌握 CNN 模型的組成邏輯與實作技巧。根據 VGG16 的模型架構，下列敘述何者正確？

📦 題組 42-45｜參考第 42 題的 VGG16 模型架構

AAdaptiveAvgPool2d 的輸出會被攤平後傳入第一個全連接層；由於前一層池化輸出空間為 4×4，所以第一個線性層的輸入維度是 512×4×4 = 8192

BLinear-33（第一個全連接層）報出的 102,764,544 參數只包含權重，偏差（bias）沒有算在內

C根據列出的「Estimated Total Size (MB) = 624.98」，表示訓練此模型只需大約 625MB 的 GPU 記憶體（包含所有 optimizer state 與梯度），所以一張 1 GB 的 GPU 就足夠訓練

DVGG16 包含 13 層卷積層（conv）與 3 層全連接層（FC），總參數數目約為 138,357,544（約 138.36M）

第 45 題

在實務應用中，我們常使用遷移學習（transfer learning）技巧，即載入預訓練模型（如 VGG16），凍結部分層的參數，只針對特定任務重新訓練最後幾層，這種做法可節省訓練時間並提升模型效能。假設你要對 VGG16 進行遷移學習，希望凍結卷積層的參數，只訓練最後全連接層（classifier）。下列哪段程式碼寫法正確？

📦 題組 42-45｜參考第 42 題的 VGG16 模型架構

# (A)
import torch
import torchvision.models as models
model = models.vgg16(pretrained=True)
for param in model.parameters():
    param.requires_grad = False
model.classifier[6] = torch.nn.Linear(4096, 10)

# (B)
import torch
import torchvision.models as models
model = models.vgg16(pretrained=True)
for param in model.features.parameters():
    param.requires_grad = False
model.classifier[6] = torch.nn.Linear(4096, 10)

# (C)
import torch
import torchvision.models as models
model = models.vgg16(pretrained=True)
for param in model.classifier.parameters():
    param.requires_grad = False
model.classifier[6] = torch.nn.Linear(4096, 10)

# (D)
import torch
import torchvision.models as models
model = models.vgg16(pretrained=True)
model.requires_grad = False
model.classifier[6] = torch.nn.Linear(4096, 10)

A如附圖 (A)

B如附圖 (B)

C如附圖 (C)

D如附圖 (D)

第 46 題

📦 題組 46-47｜共用情境
在郵遞區號自動辨識的研究中，研究人員收集了一份手寫數字影像資料集，每一張影像為 8×8 的灰階圖片，共包含多個手寫數字樣本。這份資料集來自 UCI Machine Learning Repository。研究人員發現資料中可能存在雜訊，希望透過資料降噪的方法提升後續分類的準確度，並使用 KNN 搭配交叉驗證評估模型表現。

from sklearn.datasets import load_digits
digits = load_digits()
digits.data.shape
# (1797, 64)

部分樣本經繪製後的外觀如下圖所示：

根據這份資料來回答 46~47 題。

import numpy as np
noisy = np.random.normal(digits.data, 4)

假設研究人員已將含有雜訊的手寫數字影像存放在變數 noisy 中。部分資料經視覺化後的外觀如下：

from sklearn.decomposition import PCA              # 程式碼A
pca = PCA()                                         # 程式碼B
pca.fit(noisy)                                      # 程式碼C
components = pca.transform(noisy)                   # 程式碼D
filtered = pca.inverse_transform(components)        # 程式碼E

他們嘗試使用 PCA 進行降噪，並希望能保留影像的主要特徵，同時去除影像中的雜訊。然而，當程式執行後，觀察到影像仍然含有明顯的雜訊。研究人員懷疑是程式中某個步驟的設定不正確，導致 PCA 沒有發揮降噪的作用，需要修改程式碼才能讓降噪有效。請問哪一段程式碼需要修改，才能讓 PCA 對 noisy 影像有效去噪？

A程式碼 A

B程式碼 B

C程式碼 C

D程式碼 D

第 47 題

研究人員在對 digits 資料集進行分類時，決定使用 KNN 並搭配交叉驗證來評估模型準確率。他們撰寫了四組不同的程式碼來進行 KNN 訓練與交叉驗證，但不確定哪幾組程式碼能正確執行並輸出準確率。請問哪幾組程式碼能正確使用 KNN 搭配交叉驗證，對 digits 資料集進行訓練並輸出準確率？

📦 題組 46-47｜參考第 46 題的 digits 資料集情境

# 程式碼 A
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.neighbors import KNeighborsClassifier
X, y = digits.data, digits.target
model = KNeighborsClassifier(n_neighbors=3)
cv = StratifiedKFold(n_splits=5, shuffle=True)
scores = cross_val_score(model, X, y, cv=cv, scoring="accuracy")
print(scores.mean())

# 程式碼 B
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.neighbors import KNeighborsClassifier
X, y = digits.data, digits.target
model = KNeighborsClassifier(n_neighbors=3)
cv = StratifiedKFold(n_splits=5, shuffle=True)
scores = cross_val_score(model, X, y, cv=cv, scoring="f1")
print(scores.mean())

# 程式碼 C
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.neighbors import KNeighborsClassifier
X, y = digits.data, digits.target
model = KNeighborsClassifier(n_neighbors=3)
scores = cross_val_score(model, X, y, cv=5, scoring="accuracy")
print(scores.mean())

# 程式碼 D
from sklearn.model_selection import StratifiedKFold, cross_val_score
from sklearn.neighbors import KNeighborsClassifier
X, y = digits.data, digits.target
model = KNeighborsClassifier(n_neighbors=3)
scores = cross_val_score(model, X, y, cv=5, scoring="f1")
print(scores.mean())

A程式碼 A、程式碼 B、程式碼 C、程式碼 D

B程式碼 A、程式碼 C

C程式碼 A、程式碼 B

D程式碼 C、程式碼 D

第 48 題

參考下列程式碼，下列何者正確？

📦 題組 48-50｜共用情境
使用鐵達尼號（Titanic）資料集進行多層感知機（Multilayer Perceptron, MLP）分類預測分析，其中 survived 為反應變數（1 表示存活，0 表示死亡）。

import numpy as np
import pandas as pd
from keras import Sequential
from keras.layers import Input, Dense

np.random.seed(123)
df_train = pd.read_csv("titanic_train.csv")
df_test = pd.read_csv("titanic_test.csv")

下圖顯示資料集的前 5 筆資料：

dataset_train = df_train.values.astype('float32')
dataset_test = df_test.values.astype('float32')
X_train = dataset_train[:, 0:9]
y_train = dataset_train[:, 9]
X_test = dataset_test[:, 0:9]
y_test = dataset_test[:, 9]

X_train -= X_train.mean(axis=0)
X_train /= X_train.std(axis=0)
X_test -= X_test.mean(axis=0)
X_test /= X_test.std(axis=0)

# 各敘述：
# A：X_train -= X_train.mean(axis=0) 將每個訓練集特徵的平均值調整為 0
# B：X_train /= X_train.std(axis=0) 將每個訓練集特徵的標準差調整為 0
# C：X_train 處理結果會將資料壓縮到 0 和 1 之間
# D：標準化結果防止梯度爆炸或消失
# E：標準化是屬於特徵選擇（Feature Selection）方法
# F：X_train 程式碼應修正為 X_train = X_train.std(axis=0)，
#    X_test 程式碼應修正為 X_test = X_test.std(axis=0)

AA、B、C、D

BA、E

CA、D

DA、C、F

第 49 題

參考下列執行結果，下列何者正確？

📦 題組 48-50｜參考第 48 題的 Titanic 資料集情境

model = Sequential()
model.add(Input(shape=(X_train.shape[1],)))
model.add(Dense(10, activation="relu"))
model.add(Dense(10, activation="relu"))
model.add(Dense(1, activation="sigmoid"))
model.summary()
model.compile(loss="binary_crossentropy", optimizer="adam", metrics=["accuracy"])

執行 model.summary() 後輸出如下（Model: "sequential"）：

Aactivation="relu" 其數學式為 f(x)=1/(1+e^(-x))

B空格1值為 110，空格2值為 100

C空格1值為 100，空格2值為 110

Dactivation="sigmoid" 一般用於多類別分類預測模型

第 50 題

參考下列程式碼與執行結果，下列何者正確？

📦 題組 48-50｜參考第 48 題的 Titanic 資料集情境

history = model.fit(X_train, y_train, validation_split=0.2, epochs=100, batch_size=10)
loss, accuracy = model.evaluate(X_train, y_train, verbose=0)

import matplotlib.pyplot as plt
loss = history.history["loss"]
epochs = range(1, len(loss)+1)
val_loss = history.history["val_loss"]
plt.plot(epochs, loss, 空格1, label="Training Loss")
plt.plot(epochs, val_loss, 空格2, label="Validation Loss")
plt.title("Training and Validation Loss")
plt.xlabel("Epochs")
plt.ylabel("Loss")
plt.legend()
plt.show()

# 各敘述：
# A：空格1須填入 "b-"
# B：空格2須填入 "b--"
# C：空格1須填入 "r-"
# D：空格2須填入 "r--"
# E：驗證損失明顯較訓練損失減少更明顯

AB、C

BA、C、D

CA、D

DC、D、E

📝 iPAS AI規劃師中級考題練習

📤 答題狀態紀錄

🤔 不確定 (0題)

❌ 答錯 (0題)

❌ 錯題記錄

📝 iPAS AI規劃師中級 考題練習

📤 答題狀態紀錄

🤔 不確定 (0題)

❌ 答錯 (0題)

❌ 錯題記錄

📝 iPAS AI規劃師中級考題練習