科目三機器學習技術與應用

第 1 題

某數據分析師欲建立一個模型，需描述隨機變數在連續範圍內取值的機率分佈情況。請問他應該參考下列哪一種函數？

A機率質量函數（PMF）

B條件機率

C機率密度函數（PDF）

D累積分佈函數（CDF）

第 2 題

在處理具有數百個特徵的客戶資料集時，研究人員希望將高維資料映射至較低維度空間，同時保留資料的主要變異方向。下列哪一種矩陣分解技術最常被主成分分析（PCA）採用？

A矩陣求逆

B矩陣轉置

C特徵值分解

D條件機率分解

第 3 題

在優化機器學習模型參數時，關於「梯度（Gradient）」的描述，下列何者正確？

A代表模型計算速度

B代表模型預測準確度

C代表損失函數對參數的偏微分

D代表訓練資料的總筆數

第 4 題

某零售業者分析交易數據時發現資料集中存在極端值（如超大額訂單）。若欲選擇一個較不受這些極端值影響的「集中趨勢指標」，下列何者最適當？

A平均數

B變異數

C標準差

D中位數

第 5 題

深度學習訓練中，哪一種優化方法會累積每個參數的「歷史梯度大小」，進而對不同特徵自動調整學習率，特別適用於處理稀疏特徵？

AMomentum

BAdagrad

CSGD

DBatch Normalization

第 6 題

當循環神經網路（RNN）在訓練過程中出現「梯度爆炸」現象，導致模型權重數值溢出不穩時，開發團隊應優先採用哪項技術？

A增大學習率

B梯度裁剪（Gradient Clipping）

C增加隱藏層數量

D移除正規化項

第 7 題

某金融機構希望從原始、未標註的交易紀錄中發現潛在的客戶分群或消費模式。這種不依賴標籤的學習方式屬於下列何者？

A監督式學習

B半監督式學習

C非監督式學習

D強化式學習

第 8 題

某不動產評估模型需根據房屋面積、房齡等特徵預測其成交的「具體連續數值價格」。請問這類任務稱為？

A分類

B迴歸

C聚類

D降維

第 9 題

在電腦視覺應用中，若欲透過神經網路自動辨識影像中的局部特徵（如線條或紋理），最適合採用下列哪一種網路架構？

A遞迴神經網路（RNN）

B決策樹

C卷積神經網路（CNN）

D支持向量機（SVM）

第 10 題

現代大型語言模型（LLM）常採用 Transformer 架構。請問該架構中用來捕捉序列中「長距離語境依賴關係」的核心機制為何？

A最大池化機制

B注意力機制（Attention）

C隨機森林分支

D激勵函數

第 11 題

在構建決策樹模型進行分類任務時，若欲衡量節點內樣本的「不純度」以判斷分裂效果，常見的指標為何？

A均方誤差

B皮爾森相關係數

C基尼不純度（Gini Impurity）

D歐式距離

第 12 題

某生成式 AI 團隊利用「生成器」產製假圖像，並利用「判別器」區分真假，兩者互相博弈。此技術稱為？

AVAE

BGAN（生成對抗網路）

CBERT

DLSTM

第 13 題

下列哪一種模型架構特別擅長處理具有「時間序列」性質的資料（如語音、文字或感測器連續數據）？

A卷積神經網路

B決策樹

C遞迴神經網路（RNN）

D主成分分析

第 14 題

神經網路中為了引入「非線性」特質，使模型能擬合複雜模式，必須在神經元運算後加入何種元件？

A損失函數

B激活函數（Activation Function）

C扁平化層

D梯度更新器

第 15 題

針對資料集中的缺失值（Missing Value），若欲利用現有其他特徵「訓練一個子模型」來估算並補齊缺失值，此方法屬於？

A刪除法

B均值填補

C預測模型填補（Predictive Imputation）

D缺失指標編碼

第 16 題

某工程師在進行「異常值（Outlier）」偵測時，決定利用「統計特徵分佈（如第一與第三分位數）」來判定離群點。他使用的是？

AKNN 補值

B四分位距法（IQR）

COne-hot 編碼

D知識蒸餾

第 17 題

在特徵選擇方法中，若特徵篩選過程直接「內嵌在模型訓練中（如 Lasso 迴歸或決策樹）」，這種方法稱為？

A過濾法（Filter）

B包裝法（Wrapper）

C嵌入法（Embedded）

D隨機擾動法

第 18 題

使用 One-hot Encoding 處理具備過多類別（高基數）的欄位時，最主要的風險為何？

A特徵資訊流失

B模型運算速度變快

C特徵維度爆炸

D造成模型欠擬合

第 19 題

當特徵資料分佈呈現明顯的「右偏（極端大值較多）」時，實務上常採用哪種轉換技術來降低偏態並穩定方差？

A對數轉換（Log Transform）

B標籤編碼

C缺失指標編碼

D隨機刪除

第 20 題

關於「偏差-變異權衡（Bias-Variance Tradeoff）」，若一個模型對訓練資料過於敏感，能捕捉雜訊但泛化能力差，應如何描述該模型？

A高偏差、低變異

B低偏差、高變異

C低偏差、低變異

D高偏差、高變異

第 21 題

構建「以距離為基礎」的模型（如 KNN 或 SVM）時，下列哪一項預處理步驟最為關鍵，以避免量綱（尺度）不同導致偏誤？

A特徵縮放（如標準化/正規化）

B將連續變數離散化

C增加模型複雜度

D減少資料筆數

第 22 題

若資料量極其稀少（如僅 150 筆）且類別極不平衡，欲精確評估模型穩定性並最大化資料利用率，建議採用哪種驗證方法？

A留一法（LOOCV）

B單次 Train/Test Split

C分層交叉驗證（Stratified K-fold）

D隨機子採樣

第 23 題

訓練模型後，發現模型在「訓練集」上表現近乎完美，但在「測試集」效能極差。此現象最可能稱為？

A欠擬合（Underfitting）

B梯度爆炸

C過擬合（Overfitting）

D資料洩漏

第 24 題

在訓練深度學習模型時，開發者隨機將部分神經元「暫時關閉」以防止神經元間的過度依賴，進而抑制過擬合。此技術稱為？

A早停法

BDropout

C批次正規化

D模型量化

第 25 題

在監控驗證集效能時，若指標在連續數輪迭代後皆無明顯改善，則提前終止訓練。此策略稱為？

A動量機制

B學習率衰減

C早停策略（Early Stopping）

D特徵增強

第 26 題

MLOps（機器學習維運）的核心目的為何？

A增加模型參數量

B實現 AI 模型的自動化開發、部署與持續監控

C減少特徵工程的時間

D取代資料科學家進行決策

第 27 題

根據個資保護法規，下列哪一組資訊屬於「直接識別個人身份資訊（PII）」，處理時需最嚴格管理？

A郵遞區號、職業、年齡

BIP 位址、地理定位

C姓名、身分證字號、電郵

D網路行為模式、加密密碼

第 28 題

某醫院希望在不解密原始病歷的情況下，於雲端平台上直接執行 AI 模型運算以保護患者隱私。這需要應用下列哪項技術？

A差分隱私

B聯邦學習

C同態加密（Homomorphic Encryption）

D數據泛化

第 29 題

某公司發現其招聘 AI 對特定性別的錄取率顯著低於另一群體。若欲要求不同群體獲得正向預測（錄取）的「比例大致相同」，則應參考哪項公平性指標？

A群體平等率（Demographic Parity）

BEqual Opportunity

C準確率

D召回率

第 30 題

欲解決 AI 模型中因少數族群樣本過少而導致的預測偏誤，開發團隊可利用過採樣技術「合成」新的少數類樣本。此常用技術稱為？

ASMOTE

BSoftmax

CPCA

DLIME

📝 科目三機器學習技術與應用

📤 答題狀態紀錄

🤔 不確定的題目 (0題)

❌ 答錯的題目 (0題)

❌ 錯題記錄

📝 科目三 機器學習技術與應用

📤 答題狀態紀錄

🤔 不確定的題目 (0題)

❌ 答錯的題目 (0題)

❌ 錯題記錄

📝 科目三機器學習技術與應用