iPAS 115年第ㄧ次初級AI應用規劃師-生成式AI應用與規劃試題解答

🌈️ 點選題目可顯示解答與相關背景知識說明。

🌈️ 引用本站解答請註明出處 https://ipas.tw


1. 某零售企業導入生成式AI商品推薦系統。測試結果顯示,在購物行為、偏好設定與價格區間相同的情況下,不同客戶族群收到的推薦商品類型仍出現明顯差異,且差異方向不易以既有行銷策略解釋。若在模型架構與推論設定皆未調整情形下,專案目標是優先降低可能的模型偏差風險,下列何者最合理?

(A) 重新檢視訓練資料的樣本分布與代表性;
(B) 限制推薦結果僅顯示高銷量商品;
(C) 降低模型參數規模以簡化決策邏輯;
(D) 提高推薦結果的隨機性以增加多樣性

說明

正確答案是 (A) 重新檢視訓練資料的樣本分布與代表性。

這題考察的是如何處理 AI 系統中的 「模型偏差(Model Bias)」。題目中提到一個關鍵現象:在控制了「購物行為、偏好與價格」等顯性變數後,推薦結果仍因「客戶族群」而有不明顯的差異。這通常暗示模型學到了資料中潛藏的偏見。

(A) 為正確答案:

偏差來源: 模型偏差最常見的根源在於 「訓練資料」。如果歷史資料中,某些特定族群(如性別、年齡、居住地)被標註的推薦結果本身就帶有人類過去的偏見,或者某些族群的樣本數遠高於其他族群,AI 就會學習到這些不公平的關聯。

解決邏輯: 題目目標是「降低模型偏差風險」。在不改動模型架構(Black Box 內部)的前提下,回到源頭去檢查資料的 「樣本分佈(Distribution)」 是否平衡,以及 「代表性(Representativeness)」 是否足以反映真實且公平的情況,是最根本且合理的做法。

(B) 錯誤: 限制顯示高銷量商品雖然能讓結果看起來比較「安全」,但這會造成 「馬太效應(熱門者恆熱)」,完全抹殺了生成式 AI 個人化推薦的優勢,且並未真正解決「偏差」問題,只是掩蓋了它。

(C) 錯誤: 降低模型規模雖然能簡化邏輯,但無法解決由資料引起的偏見。如果資料本身有偏見,小模型一樣會學到偏見,且可能會因為欠擬合(Underfitting)而導致推薦品質大幅下降。

(D) 錯誤: 提高隨機性雖然能增加多樣性,但這是「治標不治本」。隨機性只是讓錯誤的分佈變得模糊,並不能降低模型內部既有的偏差風險,反而可能讓推薦結果變得與使用者需求無關。

AI 偏差的常見預防步驟

當 AI 表現出無法解釋的偏好差異時,通常會依序進行以下檢查:

步驟 動作 目的
資料審核 檢查訓練資料中各族群的佔比。 確保沒有特定群體被忽視或過度代表。
特徵工程 檢視是否包含敏感屬性(如種族、性別)。 避免模型利用敏感資訊做為決策依據。
公平性指標 使用 Equality of Opportunity 等統計指標。 量化模型對不同族群的預測差異。
重新取樣 對少數族群進行過採樣或對多數族群欠採樣。 修正資料分佈不均帶來的偏見。

解題關鍵:解決 AI 偏差(Bias)的首要原則是 「垃圾進,垃圾出(GIGO)」。只要看到 AI 出現不合理的偏好或歧視,優先檢查 「訓練資料(Training Data)」 絕對是最合理的首選方案。


2. 在進行大型語言模型 (LLM) 企業專屬知識的Fine-tuning時,若內部GPU運算資源與記憶體嚴重受限,下列哪一種參數高效微調(PEFT, Parameter Efficient FineTuning)技術最能在維持模型效能的前提下,顯著降低需更新的參數數量?

(A) 知識蒸餾(Knowledge Distillation);
(B) 提示詞工程(Prompt Engineering);
(C) 梯度凍結(Gradient Freezing);
(D) 低秩適配(Low-Rank Adaptation)

說明

正確答案是 (D) 低秩適配(Low-Rank Adaptation, LoRA)。

這題考察的是在資源受限(GPU 記憶體不足)的情況下,如何有效進行大型語言模型(LLM)的微調。

(D) 為正確答案: LoRA (Low-Rank Adaptation) 是目前最主流且高效的 PEFT 技術。

運作邏輯: 它不直接更新模型原本巨大的權重矩陣(這些矩陣會被凍結),而是在原有的矩陣旁邊,外掛兩個極小的低秩矩陣(稱為 A 與 B)。

優勢: 由於只需要訓練這兩個極小的矩陣,需更新的參數數量可能不到原模型的 0.01%。這不僅大幅降低了對 GPU 記憶體的需求,還能達到與全參數微調(Full Fine-tuning)極為接近的效能。

(A) 錯誤: 知識蒸餾 是將大型模型(教師模型)的知識轉移到小型模型(學生模型)的過程。雖然能得到一個較小的模型,但其過程通常需要完整的訓練資源,不屬於「微調現有模型參數」的 PEFT 技術。

(B) 錯誤: 提示詞工程 是透過調整輸入的指令來引導模型輸出,這完全不需要更新模型參數或消耗 GPU 訓練資源,因此它不屬於「微調(Fine-tuning)」技術。

(C) 錯誤: 梯度凍結(或稱局部微調)是指凍結模型的前幾層,只訓練最後幾層。雖然能減少部分計算量,但與 LoRA 相比,它在減少參數數量與維持效能的平衡上效果較差,且仍需處理較大的層級權重,不如低秩適配靈活。

PEFT 技術優勢對照(以 LoRA 為例)

維度 全參數微調 (Full Fine-tuning) LoRA (PEFT)
需更新參數 100% (全部權重) < 0.1% (極少數)
GPU 顯存需求 極高 (需儲存所有梯度) 低 (僅需儲存低秩矩陣梯度)
模型切換 需儲存多個完整模型 僅需切換微小的「外掛層」 (Adapters)
訓練速度 較慢

解題關鍵:看到 「GPU 資源受限」、「減少參數數量」 以及 「微調 LLM」,首選技術就是 LoRA (低秩適配)。


3. 某企業規劃透過Low-Code平台建置可視化儀表板,以支援營運數據的即時監控與分析判讀。若企業特別關注儀表板顯示結果的穩定性與分析可信度,下列何者最應優先確認?

(A) 是否具備穩定的資料串接能力與即時更新機制;
(B) 是否提供自動化決策建議與預測分析模組;
(C) 是否支援彈性介面設計與多角色權限管理;
(D) 是否整合流程觸發與跨系統通知功能

說明

正確答案是 (A) 是否具備穩定的資料串接能力與即時更新機制。

這題考察的是建置數據儀表板(Dashboard)時,「可信度」與「穩定性」的底層基礎。

(A) 為正確答案: * 分析可信度: 儀表板的分析結果是否可信,完全取決於數據的真實性與一致性。如果 Low-Code 平台與資料庫之間的「資料串接」不穩定,或者資料無法「即時更新」,決策者看到的就會是過時或錯誤的數據,這會直接摧毀分析的可信度。

穩定性: 即時監控系統的核心要求是「不中斷」。穩定的串接機制能確保數據流(Data Pipeline)持續運作,不會因為斷訊或格式錯誤導致儀表板顯示異常。

(B) 錯誤: 自動化決策與預測模組 屬於「進階分析功能」。雖然這些功能很有價值,但如果底層的資料串接不穩定,預測出來的結果也會是錯的(垃圾進,垃圾出)。因此,它不是「優先」確認的基礎。

(C) 錯誤: 介面設計與權限管理 關係到「使用者體驗」與「資安」。雖然重要,但它們與儀表板顯示結果的「分析可信度(數據正確性)」無直接關聯。

(D) 錯誤: 流程觸發與通知 屬於「後續行動」功能(例如:數據達標後發簡訊通知)。這是在數據已經正確顯示後的延伸應用,並非確保顯示結果穩定與可信的前置條件。

儀表板品質的核心要素級別

優先級 關鍵要素 目的
第一優先 (基礎) 資料串接、同步頻率、數據清洗。 確保數據「對」且「快」(可信度、穩定性)。
第二優先 (呈現) 視覺化圖表選擇、介面響應速度。 確保數據「好讀、好懂」。
第三優先 (應用) 自動化通知、預測分析、權限控管。 增加數據的「附加價值」與「安全性」。

解題關鍵:當題目強調 「分析可信度」 與 「穩定性」 時,重點一定是在 「數據源頭(Data Source)」 與 「傳輸過程(Integration)」。沒有穩定的資料,再漂亮的儀表板也沒有意義。


4. 某企業導入生成式AI客服系統後發現,系統整體運作穩定,且在單位時間內可處理大量對話請求。部分使用者仍反映在互動過程中回覆出現卡頓感,經初步排除網路連線與前端介面效能問題後,若專案團隊希望針對此現象進行效能測試,下列何者最符合測試重點?

(A) 評估系統長時間運作的穩定程度;
(B) 測量系統單位時間的總處理量;
(C) 比較不同回覆內容的語言品質;
(D) 分析單次互動回覆的反應速度表現

說明

正確答案是 (D) 分析單次互動回覆的反應速度表現。

這題考察的是效能測試中不同指標的定義,以及如何根據「使用者感受」來定位問題。

(D) 為正確答案: 現象分析: 使用者反映的「回覆卡頓感」是一種對於延遲(Latency)的直觀感受。即便系統「單位時間處理量」很高,但如果每一則訊息從發出到收到回覆的時間太長,使用者就會覺得不順暢。

測試重點: 對於生成式 AI(特別是 LLM),常用的效能指標包含 TTFT (Time to First Token,首字產出時間) 以及 TPOT (Time Per Output Token,每個字的生成時間)。分析單次互動的「反應速度(Response Time)」,能精確找出是模型推理太慢,還是後端處理流程造成的延遲。

(A) 錯誤: 評估長時間運作的穩定程度屬於 「壓力測試(Stress Testing)」 或 「可靠性測試」,主要目的是確保系統不會在運作 24 小時後崩潰或記憶體洩漏,與單次互動的「卡頓感」無直接關係。

(B) 錯誤: 測量單位時間的總處理量稱為 「吞吐量(Throughput)」。題目已提到系統「可處理大量對話請求」,代表吞吐量沒問題。吞吐量高不代表反應速度快(就像高速公路可以容納很多車,但車速可能很慢)。

(C) 錯誤: 比較語言品質屬於 「模型評估(Evaluation)」 或 「品質保證(QA)」,關注的是內容對不對、好不好看,與系統執行效能(速度)無關。

生成式 AI 效能指標關鍵詞

指標名稱 測試重點 對應使用者感受
反應速度 (Latency) 單次請求的延遲時間 (如 TTFT)。 「回覆很快就出現」或「卡頓感」。
吞吐量 (Throughput) 系統同時能服務多少人。 「系統會不會因為人多而連不上」。
首字延遲 (TTFT) 從按下送出到看到第一個字的時間。 「等待開始回覆的焦慮感」。

解題關鍵:當使用者反映 「卡頓」、「太慢」、「等待很久」,重點就在於測試 「反應速度(Latency / Response Time)」。


5. 某企業導入生成式AI系統,希望自動產出客服回覆與內部文件摘要。系統需能理解使用者輸入的完整語句內容,並在回覆中維持語意連貫,即使對話內容較長仍能保持上下文一致性。基於上述需求,下列何種模型架構最為適合?

(A) 卷積神經網路(Convolutional Neural Network, CNN); 
(B) 遞迴神經網路(Recurrent Neural Network, RNN); 
(C) 基於Transformer架構的自迴歸模型(Autoregressive Model); 
(D) 生成對抗網路(Generative Adversarial Network, GAN)

說明

正確答案是 (C) 基於 Transformer 架構的自迴歸模型(Autoregressive Model)。

這題考察的是不同神經網路架構在處理「長文本」與「語意連貫性」時的優劣。

(C) 為正確答案:

核心機制: Transformer 架構使用了「注意力機制(Attention Mechanism)」,這讓模型能夠同時處理整個句子中的所有文字,而非像傳統模型那樣一個字一個字讀取。

上下文一致性: Transformer 能捕捉資料中的「長距離依賴關係」。即使對話內容很長,它依然能記住對話開頭提到的關鍵資訊,維持上下文的連貫性。

生成方式: 自迴歸模型(如 GPT 系列)的運作方式是根據前面的所有字(上下文)來預測下一個最可能的字,這正是生成式 AI 產出自然語言的核心技術。

(A) 錯誤: 卷積神經網路 (CNN) 擅長捕捉空間特徵(例如圖片中的線條、形狀),主要應用於影像辨識。雖然也可用於文字,但在處理「語意連貫性」與「長距離上下文」方面效果遠不如 Transformer。

(B) 錯誤: 遞迴神經網路 (RNN) 曾是 NLP 的主流,它按順序處理資料。但 RNN 有一個致命缺點:「遺忘問題」。當對話太長時,它很難記住太久以前的訊息(梯度消失),因此無法在長對話中保持一致性。

(D) 錯誤: 生成對抗網路 (GAN) 主要由生成器與辨別器組成,強項在於生成逼真的影像(如虛擬人臉)。它並不適合用來處理具有嚴謹邏輯與長度不一的文本摘要任務。

常見 AI 架構與任務對照表

架構名稱 擅長領域 典型應用
Transformer 序列資料、長距離關聯 ChatGPT、翻譯、摘要。
CNN 空間特徵、局部連結 影像辨識、醫學影像。
RNN / LSTM 短序列、時間序列 語音轉文字 (早期)、股價預測。
GAN 資料分佈擬合、逼真生成 影像合成、藝術創作。

解題關鍵:看到 「長對話」、「上下文一致性」、「生成式 AI」,目前在技術上幾乎唯一的標準答案就是 Transformer。


6. OpenAI已為Sora生成的影片提供多種出處證明機制,以降低誤導性或欺騙性內容帶來的風險。下列何者不屬於目前OpenAI官方為Sora內容提供的出處證明工具?

(A) 所有資產上內嵌的C2PA(Content Credentials)元數據;
(B) 預設可見的動態浮水印;
(C) 用於追蹤生成內容的內部反向影像與音訊搜尋工具;
(D) 平台對外開放的實時來源驗證介面

說明

正確答案是 (D) 平台對外開放的實時來源驗證介面。

這題考察的是 OpenAI 對於生成式影片模型 Sora 所採取的安全防護與出處透明化(Provenance)措施。根據 OpenAI 官方與相關技術文件的說明:

(D) 為正確答案(不屬於目前的工具):

OpenAI 目前並未提供一個「對外開放且實時(Real-time)」的來源驗證介面(如 API 或公開查詢網站)供一般大眾直接上傳影片進行驗證。

雖然 OpenAI 支持 C2PA 標準,讓使用者可以透過第三方工具(如 Content Credentials Verify 網站)驗證,但 OpenAI 官方並未建立一個專屬 Sora 的實時來源驗證介面。

(A) 屬於官方工具: OpenAI 已明確表示會在 Sora 生成的影片中嵌入 C2PA (Content Credentials) 元數據。這是一種工業標準的數位簽章,紀錄了內容是由 AI 生成的資訊。

(B) 屬於官方工具: 為了提供直觀的識別,Sora 生成的影片預設會包含一個可見的動態浮水印(通常位於畫面邊緣),增加移除的難度,以利辨識其為 AI 產出的資產。

(C) 屬於官方工具: OpenAI 內部維護了一套反向影像與音訊搜尋工具(Internal Detection Tools)。這套工具能比對影片特徵,高準確度地判斷該影片是否由 OpenAI 的產品(如 Sora 或 DALL-E)所產生,主要用於內部的審核與追蹤。

Sora 出處證明機制三層防護

防護層級 具體技術 目的
可見層 動態浮水印 (Watermark) 讓一般觀眾一眼就能看出是 AI 影片。
元數據層 C2PA Metadata 提供可被驗證的技術標籤(雖然可能被截圖或轉檔移除)。
技術底層 內部反向搜尋工具 即便元數據被刪除,官方仍能透過特徵比對進行溯源。

解題關鍵:目前主流 AI 廠商(OpenAI, Meta, Google)的來源驗證多採取 「嵌入資訊」 或 「內部檢測」,極少直接對公眾開放「實時來源驗證介面」,以避免該介面被攻擊者用來測試如何規避偵測(Adversarial Attacks)。


7. 某企業導入No-Code/Low-Code平台,讓各部門能自行建立資料分析與流程應用。隨著使用範圍擴大,管理層開始關注資料權限、存取紀錄與合規要求。依資料治理觀點,下列何者最合理描述此類平台對企業治理機制的典型影響?

(A) 平台內建角色權限與資料存取控管機制,有助治理制度落實;
(B) 平台強化部門自主性,通常使既有治理流程難以延續;
(C) 平台主要支援應用快速開發,資料治理仍需完全仰賴外部系統;
(D) 平台透過自動化設定機制,可顯著降低治理與合規管理需求 

說明

正確答案是 (A) 平台內建角色權限與資料存取控管機制,有助治理制度落實。

這題考察的是企業在導入 Low-Code/No-Code (LCNC) 平台後,如何與 「資料治理(Data Governance)」 機制接軌。

(A) 為正確描述:

管理一致性: 現代化的企業級 LCNC 平台(如 Microsoft Power Platform, Salesforce 等)通常具備強大的後台管理中心(Admin Center)。

治理落實: 這些平台內建了 RBAC(基於角色的存取控制)、審計日誌(Audit Logs) 以及 資料外洩防護(DLP) 政策。管理層可以透過中央控管,確保非專業開發人員建立的應用程式仍符合企業的合規性與資料存取規範,反而讓治理制度能更細緻地落實到各個應用層面。

(B) 錯誤: 雖然平台強化了部門自主性(公民開發者),但專業平台通常提供「治理框架」來銜接既有流程,而非使其難以延續。好的治理機制應是「賦能」而非「衝突」。

(C) 錯誤: 現代平台多半已整合了基本的資料治理工具(如資料加密、存取紀錄),不需「完全」仰賴外部系統。雖然外部系統可強化治理,但平台本身已具備核心治理功能。

(D) 錯誤: 導入 LCNC 平台後,由於開發門檻降低,產出的應用程式數量會激增,這反而會 「增加」 治理與合規管理的複雜度與需求。企業需要更嚴謹的自動化監控,而非降低管理需求。

Low-Code 平台的治理核心三要素

治理維度 平台提供的工具 效果
存取控管 RBAC (角色權限管理) 確保正確的人才能存取正確的資料。
資料合規 DLP (資料外洩防護) 防止機密資料被傳送到非授權的外部 App。
透明度 Audit Logs (審計紀錄) 隨時追蹤誰在何時異動了資料,符合合規稽核。

解題關鍵:企業導入任何系統,目標都是要 「納入管理」。LCNC 平台雖然讓開發變簡單,但為了確保企業安全,平台必須提供 「內建的控管機制」 來支援治理,而非讓治理消失或變難。


8. 某製造企業規劃於設備端建置邊緣運算(Edge Computing)架構,並以 No Code/Low-Code 平台開發即時監控應用。測試顯示,系統在雲端環境執行順暢,但部署至邊緣裝置後出現回應延遲與效能下降。依此情境判斷,下列何者最合理解釋該現象?

(A) 邊緣運算架構可降低系統對效能的需求;
(B) No-Code/Low-Code平台僅能在雲端環境執行;
(C) 雲端部署通常比邊緣部署更容易出現延遲;
(D) 邊緣裝置通常受限於運算能力與可用資源 

說明

正確答案是 (D) 邊緣裝置通常受限於運算能力與可用資源。

這題考察的是 邊緣運算(Edge Computing) 的環境特性與 Low-Code 平台部署的實務限制。

(D) 為正確解釋:

硬體限制: 邊緣裝置(如工業閘道器、小型控制器或感測器)為了體積、成本與功耗考量,其 CPU 運算能力、記憶體(RAM)容量 及 儲存空間 通常遠低於雲端伺服器。

效能下降原因: Low-Code 平台產生的應用程式為了通用性,有時包含較多冗餘的框架程式碼。當這些應用從資源豐富的雲端移至資源受限的邊緣裝置時,硬體資源不足會導致執行效率低落,產生明顯的延遲。

(A) 錯誤: 邊緣運算架構是為了「降低網路延遲」或「節省頻寬」,但它對於裝置端本身的效能需求反而更高,因為原本在雲端算的東西改在本地算,對裝置效能更有挑戰。

(B) 錯誤: 現代許多 Low-Code 平台(如 Node-RED 或特定工業級平台)都支援 邊緣部署(Edge Deployment)。並非「僅能」在雲端執行,只是執行效果受限於硬體。

(C) 錯誤: 在網路正常的狀況下,雲端部署由於伺服器規格極高,處理複雜運算的速度通常比單一邊緣裝置快。邊緣部署的優勢在於縮短「資料傳輸距離」,而非提升「單次運算速度」。

雲端 vs. 邊緣:運算特性對照

特性 雲端運算 (Cloud) 邊緣運算 (Edge)
運算能力 極強(可彈性擴充) 有限(受硬體規格限制)
資源容量 海量存儲與記憶體 精簡(需優化程式碼)
延遲來源 網路傳輸距離(網路延遲) 硬體處理速度(運算延遲)
適用場景 大數據分析、模型訓練 即時反應、初步資料清洗

解題關鍵:當一個系統在雲端跑得快、在本地跑得慢,且排除了網路問題,原因通常就是 「本地端的硬體太弱」,即 運算能力與資源受限。


9. 某企業使用生成式AI進行文字分類,初期僅根據既有業務資料設計少量樣本提示(Few-shot Prompting)。當模型應用至新市場資料時,團隊發現分類結果明顯不穩定,且原先提供的範例並未涵蓋新市場常見的表達方式。依此情境判斷,下列何者最可能為主要原因?

(A) 模型容易對單一範例產生過度記憶;
(B) 少量範例難以涵蓋新情境的資料差異;
(C) Prompt設計無法引導模型擷取共通特徵;
(D) 模型推理能力不足以完成分類任務

說明

正確答案是 (B) 少量範例難以涵蓋新情境的資料差異。

這題考察的是提示工程(Prompt Engineering)中 Few-shot Prompting(少量樣本提示) 的局限性。

(B) 為正確解釋:

核心問題: Few-shot Prompting 的效果高度依賴於你提供的「範例(Examples)」是否具有代表性。

情境分析: 當模型從舊市場切換到「新市場」時,新市場的語言習慣、專有名詞或表達方式可能與舊範例完全不同。因為 Few-shot 提供的樣本數量極少(通常只有 3 到 5 個),這些樣本根本無法涵蓋新市場資料的多樣性與差異性,導致模型在面對未見過的表達方式時,判斷準確度大幅下降。

(A) 錯誤: 過度記憶(Overfitting) 通常發生在模型「微調(Fine-tuning)」階段。在 Prompting 階段,模型只是「參考」範例的格式與邏輯,並非永久記憶。分類不穩主要是因為範例與現實的「不匹配」,而非記憶過深。

(C) 錯誤: 雖然 Prompt 設計很重要,但問題的核心不在於「擷取特徵的引導」,而是「參考資料(範例)本身不足」。即便引導再好,若範例中沒有相關的情境邏輯,模型也無從參考起。

(D) 錯誤: 既然模型在「初期(既有業務資料)」能正常運作,代表該模型的推理能力足以應付分類任務。問題出在環境改變(新市場)後,輸入的提示內容(Context)沒能提供足夠的背景資訊。

提示策略的遞進關係

策略名稱 運作方式 優點 缺點/侷限
Zero-shot 不給範例,直接下指令。 最快、最簡單。 容易理解錯誤或格式不合。
Few-shot 提供 3-5 個範例。 顯著提升格式與邏輯穩定度。 範例沒寫到的情況,模型就可能亂猜。
Fine-tuning 用上千筆資料重新訓練模型。 徹底學習特定領域的語言模式。 成本高、需大量標註資料。

解題關鍵:當 AI 在「已知領域」表現好,到了「新領域」變差,且題目提到 「範例未涵蓋新表達方式」,這就是在暗示樣本的 「覆蓋率」 或 「代表性」 不足,對應選項 (B)。


10. 某企業建置檢索增強生成(Retrieval-augmented generation, RAG)系統支援內部知識查詢。隨著使用量提升,團隊發現模型回覆品質穩定,但推論延遲與運算成本逐漸增加。專案規劃在維持回覆品質前提下進行效能優化。在此情境下,若採用知識蒸餾(Knowledge Distillation),下列敘述何者最為合理?

(A) 將檢索資料轉換為結構化規則以取代模型;
(B) 僅透過增加檢索文件數量改善效能;
(C) 停用生成模型以避免延遲問題;
(D) 使小型模型學習大型模型行為,以降低推論成本

說明

正確答案是 (D) 使小型模型學習大型模型行為,以降低推論成本。

這題考察的是如何解決大模型(LLM)在高運算成本與高延遲下的優化策略。

(D) 為正確答案:

核心定義: 知識蒸餾 (Knowledge Distillation) 是一種模型壓縮技術。它的運作方式是讓一個規格較小、運算速度較快的 「學生模型 (Student Model)」 去模仿一個效能強大但笨重的 「教師模型 (Teacher Model)」。

效能優化: 在 RAG 系統中,如果生成回覆的模型太慢或太貴,可以透過蒸餾技術訓練出一個輕量化模型。這個小模型能學會大模型的推理邏輯與說話風格,在維持接近大模型的回覆品質之餘,顯著降低推論延遲(Latency)與運算成本。

(A) 錯誤: 將資料轉換為結構化規則屬於傳統的「專家系統」,這與深度學習中的知識蒸餾無關,且無法應對生成式 AI 需要的自然語言表達能力。

(B) 錯誤: 增加檢索文件數量通常會 「增加」 運算負擔和延遲,因為模型需要閱讀更多上下文才能生成回覆,這與效能優化的目標背道而馳。

(C) 錯誤: 停用生成模型會導致系統無法產生自然語言回覆,這直接違反了題目要求「維持回覆品質」的前提。

知識蒸餾(Knowledge Distillation)運作邏輯

角色 特性 任務
教師模型 (Teacher) 參數多、效能好、運算慢。 產生高品質的標籤或機率分佈作為教材。
學生模型 (Student) 參數少、效能次之、運算快。 模仿教師模型的輸出行為。
結果 低成本、低延遲。 在特定任務上達到與大模型接近的表現。

解題關鍵:看到 「知識蒸餾」,腦中要立刻浮現 「大教小」、「模仿」、「模型壓縮」 與 「降低成本/提速」。這是在資源受限情境下優化 LLM 的標準做法。


11. 某零售企業規劃提升門市數據應用能力,目標包括:門市主管可自行調整分析畫面與檢視指標呈現,以及由行銷部門建立銷售預測模型,以支援補貨與促銷規劃。企業在選型時以工具的主要功能定位與典型用途作為評估依據。依此需求判斷,下列哪一項AI工具使用規劃最合理?

(A) 以AutoML作為分析介面調整平台,No-Code平台用於模型訓練;
(B) 以No-Code平台支援分析與介面調整,AutoML負責模型建立;
(C) 僅導入No-Code平台,同時滿足高階模型建立與分析需求;
(D) 僅導入AutoML,以兼顧介面調整與模型訓練

說明

正確答案是 (B) 以 No-Code 平台支援分析與介面調整,AutoML 負責模型建立。

這題考察的是企業在數位轉型中,針對不同職能需求如何精準分配工具。題目中有兩個核心需求,分別對應不同的技術定位:

門市主管需求: 自行調整分析畫面、檢視指標。

這類需求屬於 「資料視覺化與前端應用」,重點在於介面的靈活性與操作的簡易性。No-Code 平台(如 Power BI, Tableau 或 AppSheet)正是為了讓非技術人員能透過「拖拉擺放」來客製化看板與流程而設計的。

行銷部門需求: 建立銷售預測模型。

這類需求屬於 「機器學習與預測分析」。雖然行銷人員可能不具備寫程式碼的背景,但需要專業的演算法來處理銷售數據。AutoML(自動化機器學習) 的定位就是將特徵選擇、模型篩選、調參等複雜過程自動化,讓非工程師也能建立高品質的預測模型。

(B) 為正確答案: 完美對接了工具的專長。No-Code 負責「介面與呈現」,AutoML 負責「核心模型開發」。

(A) 錯誤: AutoML 的強項是跑模型,而非設計看板介面;No-Code 雖然能做簡單分析,但其模型訓練的深度與專業度通常不及專門的 AutoML 工具。

(C) 錯誤: 雖然有些 No-Code 平台包含簡單的模型功能,但對於「銷售預測」這種需要高準確度的商業應用,通常仍需 AutoML 來確保模型的科學性與預測品質。

(D) 錯誤: AutoML 是一套演算法流程,它沒有提供強大的 UI/UX 介面設計工具給門市主管去調整視覺化報表。

工具定位對照表

工具類型 主要使用者 核心價值 在本題的任務
No-Code 平台 門市主管、行政人員 快速建立 App 或看板介面。 調整分析畫面、檢視指標。
AutoML 行銷分析師、領域專家 自動化特徵工程與模型優化。 建立銷售預測模型。

解題關鍵:區分 「面子」 與 「裡子」。No-Code 是面子(介面、看板、流程),AutoML 是裡子(預測邏輯、複雜模型)。將兩者結合是企業最典型的數位化佈署方案。


12. 下列何者最能正確說明 Model Context Protocol(MCP)與檢索增強生成(Retrieval-Augmented Generation, RAG)在功能定位上的主要差異?

(A) MCP主要用於降低模型訓練成本;RAG主要用於提升推論速度;
(B) MCP著重模型與外部工具或系統互動;RAG著重補充模型知識來源;
(C) RAG必須依賴向量資料庫;MCP不需任何外部整合;
(D) RAG屬標準化通訊協議;MCP屬資料檢索技術

說明

正確答案是 (B) MCP 著重模型與外部工具或系統互動;RAG 著重補充模型知識來源。

這題考察的是 2024 年底由 Anthropic 提出並迅速成為業界關注焦點的 Model Context Protocol (MCP),以及成熟的 RAG 技術之間的本質區別。

(B) 為正確答案:

MCP (Model Context Protocol) 的定位: 它是一種開放標準(協議)。其核心目標是解決 AI 模型與各種外部資料源(如 Google Drive、Slack、GitHub、本地資料庫)之間的「連接」問題。它讓模型能透過標準化的接口,直接與外部工具「互動」或讀取即時內容,類似於 AI 的「通用序列埠 (USB)」。

RAG (檢索增強生成) 的定位: 它是一種架構模式。核心目標是將「模型未見過的私有知識」或「最新資訊」餵給模型。它透過「檢索」外部文件(通常是 PDF、Wiki)並將其加入 Prompt 中,來補充模型的知識儲備,解決幻覺問題。

(A) 錯誤: 兩者都不是為了降低「訓練成本」(那是微調或量化在做的);RAG 通常反而會因為增加輸入字數而「降低」推論速度。

(C) 錯誤: 雖然 RAG 常使用向量資料庫,但並非「必須」(也可以用關鍵字檢索);MCP 的本質就是「外部整合」,說它不需整合是錯誤的。

(D) 錯誤: 選項將兩者的性質寫反了。MCP 才屬於標準化通訊協議,而 RAG 則是一套資料檢索與生成技術。

MCP vs. RAG 關鍵差異對照表

特性 MCP (通訊協議) RAG (技術架構)
主要功能 建立 AI 與外部系統的「通用連接」。 為 AI 提供「外部參考資料(知識)」。
比喻 AI 的萬用轉接頭 (USB-C)。 AI 的參考書或圖書館。
互動性 強,可執行操作(如:查報表、發郵件)。 弱,主要是讀取資料供生成參考。
核心技術 客戶端-伺服器架構 (Client-Server)。 向量化、檢索、重排序 (Rerank)。

解題關鍵:MCP 是為了讓 AI 「手伸得更長」 去連結各種 App 或資料庫;RAG 是為了讓 AI 「書讀得更多」 去查詢特定內容。一個是「連線標準」,一個是「知識增強」。


13. 某企業建置文件型知識查詢系統,將大量長篇內部文件轉換為可供生成式AI使用的知識來源。在測試過程中,團隊發現若直接以整份文件進行檢索,模型回覆常包含無關內容,且引用段落不夠精準。團隊評估後,決定導入Chunking機制的主要目的為何?

(A) 透過縮短輸入長度,加速模型推理流程;
(B) 提升檢索結果的語意對齊程度,並降低長文件帶來的干擾;
(C) 減少模型執行時的記憶體使用量,以提升系統穩定性;
(D) 讓模型在生成回覆時具備更高的創意發揮空間

說明

正確答案是 (B) 提升檢索結果的語意對齊程度,並降低長文件帶來的干擾。

這題考察的是 RAG(檢索增強生成)流程中至關重要的一步:資料分塊(Chunking)。

(B) 為正確答案:

語意對齊: 長篇文件(如一本 50 頁的手冊)通常包含多個不同的主題。如果將整份文件直接轉換為一個向量,這個向量會變得非常模糊,難以精確匹配使用者的問題。透過 Chunking,將文件切分成較小、語意集中的片段(如段落或章節),能讓檢索系統更容易找到與問題「最相關」的特定片段。

降低干擾: 如果餵給 AI 太長且包含大量無關資訊的文件,模型容易產生「迷失在中間(Lost in the Middle)」的現象,導致回覆不精準。分塊後只擷取相關的幾塊資料,能有效減少雜訊干擾。

(A) 錯誤: 雖然 Chunking 確實縮短了每次輸入給模型的內容長度(相對於餵整份文件),但這只是結果之一,其「主要目的」是為了提升準確度而非單純為了加速。

(C) 錯誤: 記憶體使用量與模型本身的架構(如 context window)相關。Chunking 主要是解決「檢索品質」問題,對系統穩定性的提升並非其核心設計初衷。

(D) 錯誤: Chunking 的目的是為了讓模型回覆更「精準」、更「符合事實」,這與「創意發揮」正好相反。創意通常需要更寬廣、不受限的生成過程。 

為什麼 Chunking 對 RAG 這麼重要?

處理方式 優點 缺點
整份文件檢索 能看到最完整的背景。 向量模糊、雜訊太多、容易超出模型長度限制。
精細分塊 (Chunking) 檢索精準、減少無關資訊、降低運算成本。 可能遺失跨段落的上下文關聯。

解題關鍵:在 RAG 的語境下,看到 「長篇文件」 搭配 「回覆不精準/有無關內容」,解決方案幾乎都是透過 Chunking 來細化檢索顆粒度。


14. 某企業導入大型語言模型(LLM)分析內部報表,使用者經常提供 Excel 匯出的表格資料(如銷售數據與統計表)。測試時發現,模型對原始表格解析效果不穩定。為提升模型理解與回應品質,下列哪一種上下文工程(Context Engineering)作法較為適當?

(A) 將表格內容轉換為結構化JSON或Markdown table; 
(B) 在維持原始表格呈現方式下,補充欄位與數據說明; 
(C) 將表格資料隨機切割後分段輸入; 
(D) 直接提供原始表格內容以保留完整資訊

說明

正確答案是 (A) 將表格內容轉換為結構化 JSON 或 Markdown table。

這題考察的是 上下文工程(Context Engineering) 中對於非結構化或半結構化資料(如表格)的處理技巧。

(A) 為正確答案:

結構化優勢: 雖然大型語言模型(LLM)具有很強的理解力,但 Excel 的原始格式(如 CSV 產生的純文字或複雜的格式碼)往往缺乏結構邊界。將資料轉換為 Markdown table 能利用明確的符號(如 | 與 -)幫助模型識別行列關係;而轉換為 JSON 則能透過「鍵值對(Key-Value pairs)」明確定義每個數據點的欄位意義。

提升品質: 這種結構化的呈現方式能顯著降低模型對「欄位對齊」的解讀錯誤,從而提升分析的準確性。

(B) 雖然有幫助,但非首選: 補充說明確實能強化理解,但如果原始表格的「呈現方式」本身很亂(例如縮進不一或缺少分隔符),模型在定位特定數據時仍會出錯。格式化應優先於文字說明。

(C) 錯誤做法: 表格資料具有高度的關聯性。隨機切割會導致欄位與數值脫節,讓模型完全無法理解表格內容。

(D) 錯誤做法: 原始表格可能包含大量不可見字元、不規則的空白或複雜的 Excel 標記,這些雜訊會消耗模型的 Token 並干擾推理,導致解析不穩定。

表格資料優化策略對比

格式 模型理解度 特點
Markdown Table 視覺化結構清晰,適合中小型表格。
JSON 極優 語意最明確,最適合複雜資料或多層次結構。
CSV 節省 Token,但欄位多時容易對不齊。
原始文字/空白對齊 容易因為字型縮進問題導致模型解讀錯誤。

解題關鍵:面對 「表格資料」 處理,首要任務是給予 「明確的結構」。在 AI 提示工程實務中,將表格轉為 Markdown 或 JSON 是公認能提升模型解析能力的最有效手段。


15. 在生成式AI應用設計中,情境感知代理(Context-aware Agent)的核心特性為何?

(A) 能依任務需求即時重新訓練模型參數以優化結果;
(B) 僅依使用者當前輸入指令執行任務,不保留歷程資訊;
(C) 具備跨模態處理能力,可同時理解文字與影像內容;
(D) 能利用對話歷史、任務狀態調整行為與決策

說明

正確答案是 (D) 能利用對話歷史、任務狀態調整行為與決策。

這題考察的是 情境感知代理(Context-aware Agent) 的定義及其與一般單次對話模型的區別。

(D) 為正確答案:

核心特性: 「情境感知(Context-aware)」意指代理(Agent)不僅僅看當前的一句指令,還能理解「現在處於什麼樣的環境與狀態」。

具體運作: 它會參考 對話歷史(Memory) 來理解代名詞(如「它」是指前一句提到的哪個東西),並追蹤 任務狀態(Task State)(如:已經完成了哪些步驟、還剩什麼沒做)。這讓 Agent 能夠像人類助手一樣,根據前後文做出更聰明、更精準的決策。

(A) 錯誤: 情境感知主要是透過 Prompting(提示) 和 Memory(記憶) 機制來達成,並非透過「即時重新訓練(Retraining)」。重新訓練參數成本極高且速度太慢,無法滿足即時互動的需求。

(B) 錯誤: 這是 「無狀態(Stateless)」 模型的特點,與情境感知的目標正好相反。不保留歷程資訊會導致模型無法處理連續性的複雜任務。

(C) 錯誤: 這是 「多模態(Multimodal)」 能力的定義。雖然情境感知代理可以是多模態的,但多模態並不等於情境感知;情境感知的重點在於對「情境資訊」的掌握,而非輸入資料的「種類(文字或影像)」。

情境感知代理(Context-aware Agent)的三大支柱

支柱 功能說明 達成效果
短期記憶 儲存當前的對話紀錄。 確保對話連貫,不會雞同鴨講。
長期記憶 透過 RAG 檢索過去的經驗或知識。 提供專業背景,讓回覆更具深度。
狀態追蹤 紀錄任務目標與當前進度。 確保能完成多步驟的複雜任務(如訂票、寫程式)。

解題關鍵:關鍵字在於 「Context(情境/上下文)」。在 AI 領域,只要提到 Context,就是在講如何利用 「歷史資訊」 或 「環境狀態」 來輔助決策。


16. 某企業建置Agentic AI系統處理跨部門複雜任務,團隊以解決方案圖譜(Solution Graph)作為規劃框架。下列何者為Solution Graph 的主要功能?

(A)取代語言模型推理機制,改以圖形搜尋完成決策;
(B)作為任務知識庫,用於儲存AI已完成案例以供檢索;
(C)限制代理(Agent)僅能依固定流程執行,以降低行為不確定性;
(D)定義代理(Agent)可參考的任務分解與決策路徑結構

說明

正確答案是 (D) 定義代理(Agent)可參考的任務分解與決策路徑結構。

這題考察的是 Agentic AI(代理型 AI) 在處理複雜、多步驟任務時的設計框架。解決方案圖譜(Solution Graph) 是近年來發展出的一種高階規劃技術。

(D) 為正確答案:

核心概念: 對於跨部門的複雜任務(例如:從「財務審核」到「庫存檢查」再到「物流發貨」),AI 代理不能只靠直覺,需要一個結構。

功能: Solution Graph 將複雜的總體目標分解成多個子任務,並定義這些子任務之間的 「決策路徑(Decision Paths)」、「相依關係」 與 「邏輯判斷」。它像是一個導航地圖,告訴 Agent 在面對不同情境(例如 A 部門審核失敗時)應該走哪一條路徑去解決問題。

(A) 錯誤: Solution Graph 是用來 「輔助」 或 「指引」 語言模型的推理,而非「取代」它。模型依然需要利用推理能力來理解每個節點的具體內容。

(B) 錯誤: 儲存已完成案例並供檢索的技術通常稱為 「記憶(Memory)」 或 「少樣本庫(Few-shot Bank)」,而非 Solution Graph。Graph 著重的是「路徑的結構」而非「歷史數據」。

(C) 錯誤: Solution Graph 提供的是「路徑結構」和「選項」,它依然允許 Agent 根據實際情況在圖譜中尋找最優解。如果只是「固定流程」,那叫 「傳統工作流(Traditional Workflow)」 或 「寫死的程式碼」,就不需要 Agentic AI 的靈活性了。 

Solution Graph vs. 傳統工作流

特性 傳統工作流 (Sequential Workflow) 解決方案圖譜 (Solution Graph)
結構 線性或簡單分支 (IF-THEN-ELSE)。 網狀結構,包含多種可能的解決路徑。
彈性 低,遇到非預期狀況會報錯。 高,Agent 可根據中間結果調整下一步。
處理目標 規則明確的單一流程。 跨部門、需動態決策的複雜任務。

解題關鍵:看到 「Graph(圖譜)」 與 「Agent(代理)」 的組合,重點通常就在於 「任務分解(Decomposition)」 與 「路徑規劃(Path Planning)」。它讓 AI 在處理複雜問題時有一套邏輯框架可以依循。


17. 某企業提供大型語言模型(LLM)API服務,需支援高併發請求與流量波動,同時要求服務不中斷並具備故障容忍能力。若以高可用性與可擴展性為主要設計原則,下列哪一種部署方式較為適當?

(A) 採用單一高效能虛擬機(VM)集中部署,以提升資源使用效率;
(B) 建立多個模型服務實例並透過負載分散機制提供服務;
(C) 將推論任務改由用戶端設備分擔,以降低伺服器負載壓力;
(D) 使用FTP協議傳輸請求與回應,以減少服務通訊負擔

說明

正確答案是 (B) 建立多個模型服務實例並透過負載分散機制提供服務。

這題考察的是雲端系統架構中 「高可用性 (High Availability, HA)」 與 「可擴展性 (Scalability)」 的核心設計模式。

(B) 為正確答案:

高可用性(故障容忍): 透過部署「多個實例 (Instances)」,當其中一個模型伺服器發生故障時,負載均衡器(Load Balancer)會自動將流量導向其他正常的伺服器,確保服務不中斷。

可擴展性(處理高併發): 當流量波動(例如突發請求激增)時,可以透過增加實例數量(水平擴展,Horizontal Scaling)來分擔負載,搭配 負載分散機制(如 Load Balancer),能有效處理高併發請求。

(A) 錯誤: 這是「單一故障點 (Single Point of Failure, SPOF)」的典型做法。雖然單機效能高,但一旦該虛擬機當機,整個 API 服務就會完全中斷,且單機擴展能力有限(垂直擴展有其物理極限)。

(C) 錯誤: 大型語言模型(LLM)通常需要極大的運算資源(如高階 GPU)與記憶體,絕大多數的用戶端設備(手機或一般筆電)無法勝任 LLM 的推理任務。這並非 API 服務的主流部署方式。

(D) 錯誤: FTP (檔案傳輸協定) 用於傳輸檔案,而非用於處理即時的 API 請求與回應。API 服務通常使用 RESTful (HTTP/HTTPS) 或 gRPC 協議,因為它們在處理小數據、高頻次的通訊上更有效率且延遲更低。 

高可用性架構關鍵指標

術語 說明 效益
負載均衡 (Load Balancing) 將請求均勻分配給後端多台伺服器。 防止單一伺服器過載,提升系統總體吞吐量。
水平擴展 (Horizontal Scaling) 增加伺服器的「數量」。 彈性應對流量波動,比升級單機硬體更經濟且強健。
冗餘 (Redundancy) 部署多個相同的服務實例。 提供故障容忍能力,確保「服務不中斷」。

解題關鍵:看到 「高併發」、「流量波動」 與 「故障容忍(不中斷)」,架構上的標準解答一定是 「分散式部署(多實例)」 加上 「負載均衡」。


18. 關於ChatGPT、Anthropic Claude、GitHub Copilot等AI程式碼輔助工具的運作原理,下列敘述何者正確?

(A) 這些工具基於大型語言模型,經由大量程式碼與文本訓練,透過預測下一個符號來生成程式碼,但不保證產生程式碼的正確性;
(B) GitHub Copilot會在提供程式碼建議前執行並驗證該程式碼,確保其執行結果正確無誤;
(C) Anthropic Claude的程式碼建議並非即時生成,而是從事先整理的已知解答資料庫中檢索而得;
(D) ChatGPT內建完整的編譯器,可在輸出程式碼前自動編譯並更正所有語法與邏輯錯誤

說明

正確答案是 (A) 這些工具基於大型語言模型,經由大量程式碼與文本訓練,透過預測下一個符號來生成程式碼,但不保證產生程式碼的正確性。

這題考察的是生成式 AI(Generative AI)應用於程式碼編寫時的核心邏輯與限制。

(A) 為正確敘述:

底層邏輯: 無論是 ChatGPT (OpenAI)、Claude (Anthropic) 還是 Copilot,其核心都是 大型語言模型(LLM)。它們的運作本質是「機率預測」,即根據前文預測下一個最可能的 Token(符號/字元)。

訓練來源: 這些模型在訓練階段讀取了 GitHub 上數以億計的開放原始碼,因此學會了程式碼的語法、結構與常見邏輯。

風險性: 由於它們是基於機率生成的,並非具備邏輯實體的「編譯器」。模型可能會產生語法錯誤、邏輯漏洞,甚至出現 「AI 幻覺」(例如調用不存在的函式庫),因此官方皆強調生成的內容需經由人工審核。

(B) 錯誤: GitHub Copilot 是一個即時建議工具,它會在使用者輸入時快速產出補全代碼。為了維持毫秒等級的反應速度,它不會在背後實際執行或驗證代碼。它提供的只是「建議」,開發者仍需自行測試。

(C) 錯誤: Claude 與其他 LLM 一樣是「即時生成」內容。雖然它在訓練中看過很多解答,但其回應是根據使用者的提示詞(Prompt)動態構造出來的,而非簡單的資料庫檢索(Search & Retrieve)。

(D) 錯誤: ChatGPT 雖然有「代碼解釋器(Advanced Data Analysis)」功能可以執行部分 Python 代碼,但這不代表它「內建完整的編譯器」。它無法自動校正所有語言的語法或複雜的業務邏輯錯誤,生成的代碼依然可能出錯。

AI 程式碼生成的本質

特性 說明
運作原理 預測下一個 Token(符號)。
資料來源 開放原始碼(如 GitHub)、技術論壇(如 Stack Overflow)。
強項 撰寫樣板程式碼(Boilerplate)、解釋程式碼、語法轉換。
限制 可能產生幻覺、不保證邏輯正確、缺乏全局專案意識。

解題關鍵:生成式 AI 的核心關鍵字是 「預測(Prediction)」 與 「機率(Probability)」。只要選項中提到「保證正確」、「自動更正所有錯誤」或「事先整理的解答庫」,通常在目前的 LLM 技術框架下都是錯誤的。


19. 某新創公司採用MVP(Minimum Viable Product)策略,導入 Vibe Coding 以加速開發,雖然初期能快速產出可運作功能,但技術主管提醒,在正式上線前仍可能存在程式碼品質與安全風險。下列哪一項措施最合理,以降低品質與安全問題?

(A) 直接沿用AI生成程式碼至正式環境,以降低開發成本;
(B) 持續優化提示詞,即可避免大部分品質問題;
(C) 將生成程式碼納入審查、重構與安全測試流程;
(D) 限制開發者修改AI生成之程式碼架構,以維持一致性

說明

正確答案是 (C) 將生成程式碼納入審查、重構與安全測試流程。

這題考察的是在 Vibe Coding(指開發者主要透過與 AI 對話、描述意圖而非手寫代碼來構建應用的模式)與 MVP 開發策略下,如何兼顧「速度」與「軟體工程品質」。

(C) 為正確答案:

核心原則: 雖然 AI 能快速產出可運作(It works)的代碼,但 AI 不保證代碼的 安全性(可能存在 SQL 注入等漏洞)、效能 或 可維護性。

解決邏輯: 在正式上線前,必須將 AI 生成的內容視為「初稿」,導入標準的軟體工程實務,包含:

代碼審查(Code Review): 由人工檢查邏輯是否正確。

重構(Refactoring): 優化結構,避免技術債。

安全測試(Security Testing): 確保沒有資安缺陷。

(A) 錯誤: 這是極大的風險行為。AI 產出的代碼可能包含過時的函式庫、漏洞或邏輯錯誤,直接上線容易導致系統崩潰或被攻擊。

(B) 錯誤: 優化提示詞(Prompt Engineering) 雖然能提升生成品質,但無法「保證」避免問題。Prompt 無法替代編譯檢查、單元測試或安全掃描等硬性的驗證機制。

(C) 錯誤: 限制修改 反而會讓問題惡化。AI 生成的架構有時過於簡單或不符合特定業務需求,開發者必須有權力且有責任根據實際專業知識去修正 AI 的不足。

Vibe Coding 的品質守則

階段 做法 目的
開發期 快速迭代、意圖驅動。 極大化開發速度(MVP 核心)。
檢核期 靜態代碼分析 (SAST)、同行評審。 找出 AI 沒看出來的安全與邏輯漏洞。
維護期 編寫測試案例 (Unit Test)。 確保 AI 後續修改時不會破壞既有功能。

解題關鍵:無論代碼是誰寫的(人或 AI),只要是 「正式上線(Production)」 的軟體,其品質保證的唯一標準就是 「標準審查與測試流程」。任何過度信任 AI、不加檢查的選項皆為錯誤。


20. 在規劃生成式AI解決方案時,下列何種應用場景最適合採用 GPT-Realtime 類型模型?

(A) 需長時間批次處理的大規模報表生成任務;
(B) 即時資料查詢與結構化資訊檢索系統;
(C) 即時語音客服與互動式AI代理;
(D) 以高一致性為優先的法規文件自動摘要

說明

正確答案是 (C) 即時語音客服與互動式 AI 代理。

這題考察的是 GPT-4o Realtime API 類模型(如 OpenAI 於 2024 年底推出的即時語音技術)的核心定位。

(C) 為正確答案:

低延遲特性: Realtime 類模型是專為 「音訊對音訊(Audio-to-Audio)」 的即時串流設計的。它將語音辨識(ASR)、推理(LLM)與語音合成(TTS)整合在單一模型中,能達到極低的反應延遲。

互動感: 對於語音客服或虛擬助理,這種模型能模擬人類對話的自然感,包括情緒、語調、停頓,甚至能被使用者中途打斷。這與傳統「文字轉語音、語音轉文字」三步驟疊加出來的延遲感有顯著差異。

(A) 錯誤: 大規模報表生成 是非即時性的「非同步任務」。這類任務通常使用成本較低、吞吐量大的 批次處理(Batch API) 即可,不需要追求昂貴的即時性。

(B) 錯誤: 即時資料查詢與檢索主要依賴 RAG(檢索增強生成) 與文字推理。雖然也要求快,但這在文字層面就能解決,不需要用到 Realtime 模型專門針對「語音與音訊串流」優化的功能。

(D) 錯誤: 法規文件摘要 的核心要求是「準確度」與「一致性」,並非「極速反應」。法規文件通常很長,使用長文本處理能力強且輸出穩定的模型(如 GPT-4o 或 Claude 3.5 Sonnet)更為合適。

Realtime 模型與標準模型的差異

特性 標準模型 (Standard API) 即時模型 (Realtime API)
處理模式 文字/圖片輸入 → 文字輸出。 音訊/文字流式輸入 → 音訊/文字流式輸出。
延遲度 秒級 (受限於 ASR/TTS 流程)。 毫秒級 (原生支援低延遲語音)。
互動性 單回合問答。 可打斷、可感應情緒。
典型應用 聊天機器人、寫作助手。 電話客服、口說練習、即時翻譯。

解題關鍵:看到 「Realtime(實時)」 類模型,重點就在於解決 「語音對話的延遲」 問題。因此,凡是與 「即時語音」 或 「擬人化互動代理」 相關的場景,就是最合適的選擇。


21. 關於2025年OpenAI提供的AgentKit,下列何者最能描述其主要用途?

(A) 建立強化式學習(Reinforcement Learning)訓練所需的互動式模擬環境;
(B) 提供代理(Agent)模型的大規模預訓練與權重優化機制;
(C) 「Agent-to-Agent」的代理通訊協議;
(D) 支援Agents的建構、工具整合與任務流程開發

說明

正確答案是 (D) 支援 Agents 的建構、工具整合與任務流程開發。

這題考察的是 OpenAI 在 2024 年底至 2025 年間推動的開發者生態系工具。AgentKit 是為了降低開發 「代理型 AI (Agentic AI)」 門檻而推出的開發套件。

(D) 為正確答案:

核心功能: AgentKit 提供了一套標準化的框架,讓開發者能更輕鬆地定義一個 Agent 的意圖(Intent)、記憶機制(Memory),並將各種 「工具(Tools/Functions)」(如:搜尋網頁、執行 Python 程式碼、存取資料庫)整合進去。

流程管理: 它讓開發者能設計複雜的「任務流」,而不只是單次問答。例如:Agent 先去查詢庫存,再根據結果決定是否要寫郵件通知採購人員。

(A) 錯誤: 這描述的是 OpenAI 早期推出的 Gym 或其後繼者(用於強化學習實驗環境),與專注於 LLM 代理應用的 AgentKit 定位不同。

(B) 錯誤: 預訓練(Pre-training) 涉及極大的算力與原始資料,通常由 OpenAI 內部完成。開發套件(Kit)的目的是「應用與開發」,而非「訓練底層權重」。

(C) 錯誤: 「Agent-to-Agent」的通訊協議通常指的是 MCP (Model Context Protocol) 的發展方向或特定的多代理架構(Multi-agent Orchestration),AgentKit 更多是關於「單個或多個 Agent 如何被建構出來並與外部工具互動」。 

AgentKit 的組成要素

要素 功能說明
工具箱 (Tooling) 預先定義好的 API 介面,讓 Agent 可以直接調用。
規劃器 (Planner) 幫助 Agent 將大任務拆解成小步驟。
執行器 (Executor) 負責處理實際的操作流程。
記憶中心 (Memory) 讓 Agent 記住當前任務的進度與使用者偏好。

解題關鍵:在 AI 軟體開發的語境下,看到 「Kit(套件)」,重點通常就在於 「建構(Build)」、「開發(Develop)」 與 「整合(Integrate)」。這類工具旨在將複雜的代理邏輯模組化,讓開發者能像搭樂高一樣組合出 AI 助理。


22. 所有在Gemini應用程式透過Veo生成的影片,皆採用何種技術措施來協助企業用戶應對AI生成內容可能帶來的不實資訊風險?

(A) 嚴格限制所有用戶每日的影片生成次數與使用時間;
(B) 在所有生成影片的開頭與結尾處強制加入明顯的AI標示警語;
(C) 要求所有影片輸出時必須附帶至少10秒的免責聲明片段;
(D) 使用 SynthID 技術在每一幀(frame)影片中嵌入不可見的數位浮水印

說明

正確答案是 (D) 使用 SynthID 技術在每一幀(frame)影片中嵌入不可見的數位浮水印。

這題考察的是 Google 在其最強大的影片生成模型 Veo 中所採取的安全技術與透明度機制。

(D) 為正確答案:

核心技術: Google DeepMind 開發的 SynthID 技術,能在 AI 生成的內容(包括圖片、音訊、影片)中嵌入一種不可見(Imperceptible)的數位浮水印。

運算方式: 對於影片而言,SynthID 會直接在每一幀(frame)的像素中嵌入浮水印,這種標籤肉眼無法察覺,且具備極強的抗破壞性。即便影片經過剪輯、加濾鏡、縮放或降低畫質,官方依然可以透過檢測工具識別其是否由 Google AI 生成。

目的: 這是為了在不影響視覺體驗的前提下,提供一種可靠的溯源機制,協助企業與使用者辨識內容真偽,降低誤導性資訊的傳播風險。

(A) 錯誤: 限制次數與時間屬於「流量控管」或「訂閱政策」,並非針對「不實資訊風險」的技術證明措施。

(B) 與 (C) 錯誤: 強制加入警語或免責片段屬於「可見標籤」。雖然 Veo 生成的影片可能會在角落包含可見標誌(如浮水印圖示),但並非以「開頭結尾加入 10 秒免責聲明」這種會破壞觀影體驗的方式處理。此外,可見標籤非常容易透過簡單的剪裁被移除,因此不算是防範風險的最核心技術手段。 

SynthID 的三大優勢

特性 說明 效果
不可見性 嵌入在像素位元中,不影響美觀。 使用者體驗與一般影片無異。
強健性 (Robustness) 抵抗截圖、壓縮、裁剪或簡單編輯。 即使被惡意篡改,依然能被偵測。
跨模態支援 支援圖片、音訊、文字以及 Veo 影片。 建立全方位的 AI 生成內容防護網。

解題關鍵:Google 官方在發佈 Veo 與新一代 Gemini 更新時,皆重複強調 SynthID 是其內容透明度的核心。看到 Google 產品(Gemini, Veo, Imagen)搭配「防範不實資訊」或「浮水印」,SynthID 幾乎就是標準答案。


23. 某保險公司想建立智慧理賠系統,包含兩個功能:(1)自動判斷理賠案件是否為詐欺案件 (2)自動生成理賠調查報告。請問這兩個功能分別屬於哪種AI技術類型?

(A) (1)鑑別式AI (2)生成式AI;
(B) (1)生成式AI (2)鑑別式AI;
(C) 兩者都是鑑別式AI;
(D) 兩者都是生成式AI

說明

正確答案是 (A) (1) 鑑別式 AI (2) 生成式 AI。

這題考察的是 AI 兩大核心類別:鑑別式(Discriminative) 與 生成式(Generative) AI 的功能區分。

(1) 自動判斷理賠案件是否為詐欺:屬於「鑑別式 AI」

運作邏輯: 鑑別式 AI 的目的是「分類」或「預測」。它會學習資料中的模式與界線,然後針對輸入的案件給出一個判斷結果(例如:是詐欺/不是詐欺,或是詐欺的機率值)。

核心任務: 分類 (Classification)、迴歸 (Regression)。

(2) 自動生成理賠調查報告:屬於「生成式 AI」

運作邏輯: 生成式 AI 的目的是「創造」。它不只是給出一個標籤,而是根據輸入的資訊(如理賠細節、調查數據),產生全新的內容(如一段完整的文字報告)。

核心任務: 內容創作、摘要、翻譯。

鑑別式 AI vs. 生成式 AI 對照

特性 鑑別式 AI (Discriminative) 生成式 AI (Generative)
目標 辨識、分類、標籤。 創造、合成、生成。
輸出內容 一個類別(是/否)或機率。 文字、圖片、音訊、影片或程式碼。
生活中例子 垃圾郵件過濾、人臉辨識。 ChatGPT 寫詩、DALL-E 畫圖。
本題應用 判斷是否為詐欺案件(二選一)。 撰寫調查報告(文字產出)。

解題關鍵:區分的關鍵在於 「輸出的是標籤(判斷結果)」 還是 「輸出的是新內容」。判斷真偽是鑑別,寫出報告是生成。


24. 某大型製造工廠導入生成式AI系統來優化能源消耗,每日需處理約10萬筆設備數據並生成能源優化建議。系統每月API調用成本約15萬元,內部維護人力成本8萬元,基礎設施成本5萬元。該工廠評估導入效益時,下列哪一項總體擁有成本(Total Cost of Ownership, TCO)分析最完整?

(A) 主要以API調用成本15萬元作為 TCO 評估基礎; 
(B) 以API調用成本15萬元及維護人力成本8萬元進行整體估算; 
(C) 綜合API調用、維護人力與基礎設施等直接成本進行評估,共約28萬元; 
(D) 除直接成本外,並考量訓練、系統整合與資安合規等相關支出

說明

正確答案是 (D) 除直接成本外,並考量訓練、系統整合與資安合規等相關支出。

這題考察的是企業在導入新技術(特別是 AI 系統)時,對於 總體擁有成本(Total Cost of Ownership, TCO) 的完整理解。

(D) 為正確答案(最完整的評估):

TCO 的定義: TCO 不僅包含買東西的「標價」或每個月的「帳單」,還包含產品在整個生命週期中產生的所有直接與間接成本。

隱形成本: 對於製造工廠而言,導入 AI 系統除了題幹提到的 API、人力與硬體費用(直接成本)外,通常還涉及:

系統整合: AI 如何與工廠既有的 ERP 或 MES 系統接軌。

員工訓練: 第一線操作員與管理層如何解讀並執行 AI 的建議。

資安與合規: 處理 10 萬筆設備數據時的資料保護與法規遵循費用。

完整的 TCO 分析必須將這些長期且隱形的支出納入考慮,才能評估真正的投資報酬率(ROI)。

(A)、(B)、(C) 錯誤: 這些選項僅涵蓋了 「直接成本」(OpEx 營運支出)。雖然 (C) 算出了 28 萬元,但這只是帳面上的支出,忽略了專案啟動時的建置成本(CapEx)以及後續的軟性管理成本,在軟體工程與企業治理的角度來看是不夠完整的。

AI 系統的總體擁有成本 (TCO) 結構

類別 包含項目 狀態
直接成本 (Visible) API 費用、硬體/雲端主機、專職維護人力。 容易預算與估計。
間接/隱形成本 (Hidden) 系統集成 (Integration)、人員培訓 (Training)、數據清洗 (Data Cleaning)、資安控管 (Security)。 通常佔 TCO 的絕大部分。
維護與演進 模型微調 (Fine-tuning)、版本更新、合規審計。 長期持續產生。

解題關鍵:在企管或資管考試中,凡是提到 TCO,答案通常會指向那個 「考慮最全面」、「包含直接與間接成本」 的選項。TCO 就像一座冰山,水面下的隱形成本(整合、培訓、安全)往往才是最重的部分。


25. 某機構計畫導入生成式AI旅遊資訊服務對話系統自動生成多語言對話。目前每月需人工翻譯600則訊息,每則成本50元;若改用 ChatGPT API,每則訊息需 2000 Tokens,而 Token 成本0.8元/1000 Tokens,但需額外投入系統整合費用20萬元。關於投資報酬率(Return on Investment, ROI)評估,下列何者最為正確?

(A) 每月節省成本29,040元,系統整合成本約7個月回收;
(B) 每月節省成本30,000元,系統整合成本約7個月回收;
(C) 每月節省成本28,040元,系統整合成本約8個月回收;
(D) 每月節省成本25,000元,系統整合成本約8個月回收

說明

正確答案是 (A) 每月節省成本 29,040 元,系統整合成本約 7 個月回收。

這是一題標準的成本效益分析與投資報酬率(ROI)計算題。我們需要先算出人工成本、AI 成本,得出每月節省金額後,再計算回收期。

1. 計算每月成本

(1) 人工翻譯成本:$$600 \text{ 則} \times 50 \text{ 元/則} = 30,000 \text{ 元/月}$$

(2) ChatGPT API 成本:

每則訊息 Token 費:$$2,000 \text{ Tokens} \times (0.8 \text{ 元} / 1,000 \text{ Tokens}) = 1.6 \text{ 元/則}$$

每月總 API 費:$$600 \text{ 則} \times 1.6 \text{ 元/則} = 960 \text{ 元/月}$$

2. 計算每月節省金額每月節省:$$30,000 \text{ 元(人工)} - 960 \text{ 元(AI)} = 29,040 \text{ 元}$$

3. 計算回收期(Payback Period)

回收月份:$$\text{系統整合費用} / \text{每月節省金額} = 200,000 \text{ 元} / 29,040 \text{ 元} \approx 6.887 \text{ 個月}$$

進位至整數後,約為 7 個月。

成本結構對照表

項目 人工翻譯 (現況) AI 翻譯 (導入後) 差異 (效益)
單價 50 元 / 則 1.6 元 / 則 節省 48.4 元 / 則
每月總支出 30,000 元 960 元 29,040 元
初期投資 0 元 200,000 元 -

解題關鍵:
單位換算: 計算 API 成本時,要小心 $1,000$ Tokens 的單價換算。
回收期邏輯: 回收期 = 投資總額 / 每月淨收益。
商業評估: 此案例顯示 AI 在處理高重複性、低單價任務(如多語言訊息翻譯)時,具備極高的成本優勢。雖然初期有整合費,但在不到一年的時間內即可回收成本並開始產生淨利。


26. 某支付平台為了強化洗錢行為檢測,計劃導入生成式AI技術來輔助分析可疑交易模式。該平台擁有大量歷史交易記錄和已知洗錢案例資料,希望AI能自動生成可疑交易的特徵描述報告。下列哪一種生成式AI技術最適合此需求?

(A) 使用Midjourney生成交易流程圖像;
(B) 採用Few-shot Learning訓練圖像識別模型;
(C) 運用RAG檢索增強生成技術結合歷史案例資料庫;
(D) 直接使用ChatGPT的基礎模型進行分析

說明

正確答案是 (C) 運用 RAG 檢索增強生成技術結合歷史案例資料庫。

這題考察的是如何將 生成式 AI 應用於高度專業且需要事實依據的場景(如金融監測)。

(C) 為正確答案:

RAG (Retrieval-Augmented Generation) 的必要性: 支付平台擁有「大量歷史交易記錄」與「已知洗錢案例」,這些是企業的私有知識,一般的 AI 基礎模型(如 ChatGPT)在訓練過程中並未接觸過這些數據。

運作流程: 當系統偵測到一筆可疑交易時,RAG 會先從歷史資料庫中「檢索」出最相似的洗錢案例與特徵,再將這些真實資料餵給 AI。

優點: 這樣生成的「特徵描述報告」會基於真實發生的案例,而非 AI 的憑空想像(減少幻覺),且能精準對應平台內部的特定洗錢模式。

(A) 錯誤: Midjourney 是圖像生成工具,無法處理數據分析或生成文字報告。

(B) 錯誤: Few-shot Learning 是一種學習策略,且題目提到的是「圖像識別」,這與分析交易數據、生成「文字特徵報告」的需求不符。

(D) 錯誤: 直接使用基礎模型會面臨兩個問題:

1.缺乏私有數據: 模型不知道該平台過去有哪些特定的洗錢案例。
2.安全與幻覺: 金融監測需要極高的準確性,基礎模型容易產生與事實不符的推論。

RAG 在金融風險控管中的角色

步驟 動作 在本案例中的應用
檢索 (Retrieve) 從資料庫找尋相關資訊。 從歷史案例庫中找出與當前交易相似的洗錢手法。
增強 (Augment) 將找到的資訊加入 Prompt。 將「歷史案例 A、B、C」提供給 AI 作為背景。
生成 (Generate) 產生最終回應。 AI 根據歷史經驗,自動寫出該筆交易的特徵描述報告。

解題關鍵:當題目提到 「擁有大量歷史案例/資料庫」 並要求 「生成報告/分析」 時,為了確保報告的專業性與真實性,RAG 是業界最標準且最合理的技術解決方案。


27. 某紡織公司希望建立自動化品質檢測流程,既有的AI系統檢測到布料瑕疵時,需自動拍照存檔、發送通知給品管人員。該公司具有一定開發人力,希望快速建置此工作流程,並保有彈性調整空間,下列哪一種解決方案最適合?

(A) 使用n8n建立工作流(Workflow),整合AI檢測API、檔案系統、通訊軟體;
(B) 委外開發客製化程式,完全符合公司需求規格;
(C) 採購現成的品質管理軟體,直接導入使用;
(D) 使用Excel巨集搭配人工作業處理檢測結果

說明

正確答案是 (A) 使用 n8n 建立工作流(Workflow),整合 AI 檢測 API、檔案系統、通訊軟體。

這題考察的是企業在實務開發中,如何平衡「開發速度」、「彈性」與「成本」。

(A) 為正確答案:

n8n 的定位: 它是著名的 Low-Code / No-Code 工作流自動化工具。

快速建置與彈性: 題目提到公司「具有一定開發人力」,這類工具能讓開發者透過視覺化節點,快速將不同的 API(AI 檢測)、檔案系統(拍照存檔)與通訊軟體(發送通知)串接起來。相比於從零寫程式,速度更快;相比於現成軟體,調整彈性更高(例如隨時想增加發送簡訊功能,只需拉一個新節點)。

(B) 錯誤: 委外開發 雖然能完全符合規格,但通常耗時較長,且未來若要「彈性調整」流程(例如換一個通訊軟體),往往需要支付額外維護費並等待外部廠商排程,不符合「快速建置」與「保有彈性」的需求。

(C) 錯誤: 現成套裝軟體 的導入速度雖然快,但「彈性調整空間」通常最小。若現成軟體不支持公司特定的 AI API 或拍照流程,修改難度極高。

(D) 錯誤: Excel 巨集 適合處理靜態數據,但不適合處理涉及「影像存檔」、「API 串接」與「即時通訊發送」的自動化生產線流程,且自動化程度過低。

工作流自動化(Workflow Automation)的優勢

評估維度 Low-Code 工作流 (如 n8n) 客製化開發 現成套裝軟體
建置速度 中 (需環境適配)
彈性空間 極高 (但修改難度大)
維護難度 低 (視覺化介面) 高 (需維護程式碼)
適合對象 有開發力且追求效率。 預算充足且需求極特殊。 標準化流程。

解題關鍵:當需求包含 「多系統整合(API、檔案、通訊)」 且強調 「快速」 與 「彈性」 時,使用 n8n 或 Zapier 這類 工作流(Workflow)工具 是目前企業數位轉型最主流且最合理的路徑。


28. 某市政府交通局計劃導入生成式AI技術來自動生成公車到站時間預測的文字報告,每日需處理約50萬筆交通資料並生成1000份報告。在評估導入成本時,團隊希望進行 Token Economics 分析(指模型推理與生成過程中,Token使用量及其費用)。下列何者不屬於 Token Economics 的考量範圍?

(A) 每次API呼叫所需的輸入Token數量;
(B) 生成報告內容所消耗的輸出Token費用;
(C) AI模型訓練階段使用Token數量所需的GPU記憶體成本;
(D) 模型推理過程中的Token使用量統計

說明

正確答案是 (C) AI 模型訓練階段使用 Token 數量所需的 GPU 記憶體成本。

這題考察的是 Token Economics(代幣經濟學) 在企業應用中的具體範疇。在生成式 AI 的商業環境中,Token Economics 通常指的是與「營運成本(OpEx)」直接相關的模型推理與生成支出。

(C) 為正確答案(不屬於考量範圍):

模型訓練(Training): 訓練階段涉及的是「建置成本」或「研發成本」。雖然訓練也使用 Token,但這屬於模型開發方的預算範疇(或是企業進行微調時的一次性支出)。

GPU 記憶體成本: 訓練時的 GPU 資源消耗通常被歸類為「基礎設施成本」或「算力成本」。Token Economics 的核心是在模型「已經建立好」的前提下,計算每一筆請求(Request)產生的邊際成本。

(A) 屬於考量範圍: 輸入 Token(Input Tokens) 是 API 計費的重要組成部分,包括提示詞(Prompt)與上下文內容。

(B) 屬於考量範圍: 輸出 Token(Output Tokens) 決定了生成的報告內容長短與對應的費用,這直接影響每日 1000 份報告的總支出。

(D) 屬於考量範圍: 使用量統計 是管理與預測成本的基礎,對於每日處理 50 萬筆資料的系統來說,追蹤 Token 消耗量是精算 ROI 的關鍵。

Token Economics 核心三要素

項目 說明 對財務的影響
輸入 (Input) 提示詞與參考資料的長度。 控制 RAG 或上下文長度以節省成本。
輸出 (Output) AI 回傳結果的長度。 限制輸出格式或長度以精確預算。
定價 (Pricing) 每 1k 或 1M Tokens 的單價。 決定選擇高效能模型(貴)或輕量模型(便宜)。

解題關鍵:Token Economics 關注的是「用多少、付多少」的 推理營運成本。只要選項涉及到 「訓練(Training)」 或 「硬體底層架構(GPU 記憶體)」,通常就不屬於日常維運的代幣經濟分析範疇。


29. 某農業合作社希望建立一套自動化工作流程,當農民透過手機APP回報田間病蟲害照片時,系統能自動通知相關專家、建立案件紀錄並排程現場訪查。該合作社IT資訊人力有限,僅有一位具備基礎程式概念的人員。下列哪一種開發方式最適合此需求?

(A) 採用傳統程式開發,從零開始撰寫完整系統;
(B) 使用純粹的 No-Code 平台,完全不需要任何程式技能;
(C) 使用 Low-Code 平台,結合視覺化拖拉與少量程式碼;
(D) 直接購買現成的農業管理軟體,不進行客製化

說明

正確答案是 (C) 使用 Low-Code 平台,結合視覺化拖拉與少量程式碼。

這題考察的是企業在有限資源下,如何選擇最合適的開發模式。題目中有幾個關鍵誘因:「IT 人力有限(僅一位)」、「具備基礎程式概念」、以及需要 「自動化工作流程」。

(C) 為正確答案:

Low-Code(低程式碼)平台的優勢: 對於只有一位具備基礎程式知識的人員來說,Low-Code 平台(如 Power Automate, Retool 或 Mendix)提供了最佳的平衡。

效率與能力的結合: 視覺化拖拉可以快速完成 80% 的介面與流程建置,而那「少量程式碼」的能力,剛好可以用來處理特定的邏輯(如解析 APP 傳回的特定資料格式或處理 API 串接),這比純 No-Code 更具彈性,也比傳統開發快得多。

(A) 錯誤: 傳統程式開發 (Traditional Coding) 需要從資料庫設計、前後端架構到安全維護全手寫。對於只有一人的小團隊來說,開發週期過長且維護難度極高,容易發生「人走系統就倒」的風險。

(B) 錯誤: 純 No-Code 平台 雖然上手最快,但在處理「病蟲害照片回報」與「建立案件紀錄並排程」這種涉及特定邏輯與多個系統整合的任務時,往往會遇到功能受限的瓶頸,缺乏處理複雜業務邏輯的彈性。

(D) 錯誤: 現成軟體 雖然導入最快,但農業管理軟體可能不完全契合該合作社的特定流程(如特定的專家通知機制)。若「不進行客製化」,往往會導致業務必須去遷就軟體,降低實務運作的效率。

開發模式對照表

開發方式 所需技能 建置速度 彈性程度
傳統開發 高(全端工程師) 極高
Low-Code 中(具基礎程式邏輯)
No-Code 低(一般行政人員) 極快

解題關鍵:當題目提到 「具備基礎程式概念的人員」 時,通常就是在暗示 Low-Code 是最能發揮其專長(少量程式碼)並解決人力不足問題的最佳工具。


30. 某市政府環保局想建立一個垃圾分類查詢系統,讓民眾輸入物品名稱後自動判斷分類。由於垃圾種類繁多,但每種分類的訓練範例有限,工程師決定採用少樣本學習(Few-shot Learning)技術。下列何者為少樣本學習(Few-shot Learning)的主要特徵?

(A) 需重新蒐集大規模標註資料,以確保模型具備穩定表現;
(B) 透過少量任務示例,引導模型適應新情境或新分類需求;
(C) 不需任何範例輸入,即可完成新任務推論;
(D) 僅適用於自然語言處理任務,對其他模態效果有限

說明

正確答案是 (B) 透過少量任務示例,引導模型適應新情境或新分類需求。

這題考察的是 少樣本學習(Few-shot Learning) 的核心定義,這是讓生成式 AI 展現強大靈活性的關鍵技術之一。

(B) 為正確答案:

核心定義: Few-shot Learning 指的是在不調整模型權重(不進行參數訓練)的情況下,僅在提示詞(Prompt)中提供 「少數幾個(通常為 1 到 5 個)」 具體的範例(Input-Output pairs),讓模型觀察並模仿這些範例的邏輯,進而處理新的問題。

本題應用: 面對種類繁多的垃圾,環保局不需要為每種新垃圾都重新訓練模型,只需在 Prompt 裡寫:「例 1:電池 -> 資源回收(廢乾電池類);例 2:剩菜 -> 廚餘」,模型就能學會這種格式並判斷「破掉的瓷碗」該分到哪一類。

(A) 錯誤: 需要「大規模標註資料」的是傳統的 監督式學習(Supervised Learning) 或 微調(Fine-tuning)。Few-shot 的初衷正是為了「解決資料不足」的問題。

(C) 錯誤: 完全不提供任何範例就進行推論的技術稱為 「零樣本學習(Zero-shot Learning)」。Few-shot 顧名思義必須包含「少量」範例。

(D) 錯誤: Few-shot Learning 雖然在自然語言處理(NLP)中非常出名,但也廣泛應用於 電腦視覺(Computer Vision) 和 音訊處理 等多種模態。例如:給 AI 看兩張罕見鳥類的圖片,它就能在第三張圖中辨認出該鳥類。

不同樣本學習方式的對比

學習方式 提供範例數量 核心邏輯
Zero-shot 0 個 直接下指令,全憑模型預訓練時的知識。
One-shot 1 個 給一個標準範例供模型參考。
Few-shot 2 ~ 5 個 (少數) 引導模型理解特定任務的格式、風格或分類邏輯。
Fine-tuning 數百 ~ 數萬個 修改模型參數,使其變成該領域的專家模型。

解題關鍵:看到 「少樣本(Few-shot)」,關鍵字就是 「少量範例」 與 「引導/適應」。它是現今利用 LLM 快速開發應用程式最常用且成本最低的方法。


31. 某有機農場累積了十年的病蟲害防治紀錄文件,包含不同作物的病害症狀描述、防治方法和效果評估。農場主人希望建立一個AI助手,能根據農民描述的作物症狀,快速提供相關的防治建議和歷史案例。下列哪一種技術最適合解決這個需求?

(A) 直接使用ChatGPT的預訓練知識回答農業問題;
(B) 將所有文件內容加入ChatGPT的系統提示詞中;
(C) 採用RAG技術,將農場文件建立向量資料庫,結合大語言模型生成回答;
(D) 使用少樣本學習(Few-shot Learning),在提示詞中提供3-5個病害案例

說明

正確答案是 (C) 採用 RAG 技術,將農場文件建立向量資料庫,結合大語言模型生成回答。

這題考察的是如何處理企業或組織內部的 「專有私域知識(Private Domain Knowledge)」。

(C) 為正確答案:

RAG (Retrieval-Augmented Generation) 的優勢: 農場擁有的是「十年的防治紀錄文件」,這些是外部 AI 模型(如 ChatGPT)在預訓練階段完全無法接觸到的專有資料。

運作機制: RAG 會將這十年的文件切碎、轉化為向量並儲存在資料庫中。當農民描述症狀時,系統先從資料庫中「檢索」出最相關的防治歷史,再交由 AI 根據這些真實紀錄生成精確建議。

精準與防幻覺: 這種做法能確保 AI 提供的建議是基於該農場的真實成功經驗,而非 AI 憑空想像的通用內容。

(A) 錯誤: 通用的預訓練知識可能不符合該農場的特定作物、微氣候或有機規範。AI 可能會建議使用化學農藥,這違反了該農場「有機」的初衷。

(B) 錯誤: 十年的文件量極大,會遠遠超過模型所能接受的 「上下文窗口(Context Window)」 限制。直接塞進提示詞不但費用昂貴,且模型處理長文本時容易產生遺漏。

(D) 錯誤: Few-shot Learning 只能教 AI 「回答的格式或邏輯」,無法提供它「十年的專業防護內容」。只有 3-5 個案例不足以涵蓋十年來豐富的病蟲害知識。

RAG 在專業領域的運作流程

步驟 說明
1. 索引 (Indexing) 將十年來的有機防治文件轉化為向量資料,存入資料庫。
2. 檢索 (Retrieval) 農民輸入「番茄葉子有黑點」,系統自動找出過去十年所有關於黑點病的紀錄。
3. 生成 (Generation) AI 整合這些紀錄,告訴農民:「根據我們 2018 年與 2022 年的紀錄,建議使用蘇力菌...」。

解題關鍵:當需求中出現 「大量專有文件/歷史紀錄」 且需要 「精確回答」 時,RAG(檢索增強生成) 幾乎就是唯一的技術標準答案。


32. 隨著企業加速導入AI,No-Code/Low-Code平台逐漸成為模型開發與產品化的常見工具。相較於傳統自行撰寫程式的建模流程,下列何者最能正確描述此類平台在模型訓練機制上的典型特性?

(A) 透過視覺化介面與標準化流程,協助完成模型訓練與調校;
(B) 主要提供既有模型推論能力,通常不支援重新訓練;
(C) 著重資料處理與轉換,模型訓練仍需外部工具完成;
(D) 多數僅適用於特定大數據框架(如Spark)的訓練流程

說明

正確答案是 (A) 透過視覺化介面與標準化流程,協助完成模型訓練與調校。

這題考察的是 No-Code/Low-Code (無程式碼/低程式碼) AI 平台在模型開發生命週期中的角色。

(A) 為正確答案:

核心特性: 這類平台(如 Google Vertex AI AutoML、Microsoft Azure Machine Learning Designer、或是 AWS SageMaker Canvas)旨在將複雜的機器學習流程「民主化」。

運作方式: 使用者不需要手寫 Python 程式碼(如呼叫 PyTorch 或 TensorFlow 函式庫),而是透過 視覺化組件(Drag-and-Drop) 來匯入資料、選擇特徵、並執行模型訓練。

標準化: 平台會將資料清理、模型選擇、超參數調校(Hyperparameter Tuning)等步驟標準化,大幅降低了建立專屬模型的門檻。

(B) 錯誤: 雖然許多平台提供預訓練模型(Pre-trained Models)直接使用,但現代化的 No-Code/Low-Code 平台(特別是針對企業級應用的平台)的核心價值之一就是支援 「AutoML(自動機器學習)」,讓使用者能用自己的資料重新訓練模型。

(C) 錯誤: 這類平台通常是 「端到端 (End-to-End)」 的解決方案。從資料預處理(Data Prep)、模型訓練、評估到最後的部署,都在同一個平台內完成,不需要特地切換到外部工具。

(D) 錯誤: 這些平台通常會抽象化底層運算框架。無論後端是用 Spark、Kubernetes 還是特定的伺服器架構,使用者在操作介面上是不需要感知的,且其適用範圍非常廣,不侷限於大數據框架。

傳統建模 vs. No-Code/Low-Code 建模

特性 傳統寫程式 (Code-first) No-Code / Low-Code 平台
進入門檻 高(需熟悉算法與程式語言)。 低(熟悉業務邏輯即可)。
開發速度 較慢,需處理大量樣板程式碼。 極快,透過視覺化流程快速迭代。
調校方式 手動編寫程式碼調整參數。 透過圖形化介面或 AutoML 自動調校。
適用場景 高度客製化、複雜的研究專案。 企業內部快速導入、MVP 開發。

解題關鍵:看到 No-Code/Low-Code 平台與 「訓練」 的關係,關鍵字就在於 「視覺化(Visual)」、「標準化(Standardized)」 以及 「自動化(Automated/AutoML)」。這類平台的核心目的就是讓非技術背景或追求效率的開發者也能完成高品質的模型訓練。


33. 某醫療院所希望改善行政效率,規劃讓各科室人員可自行建立行政回報與內部申請表單,並導入AI功能以自動判讀與分類填寫內容(如問題類型或需求性質),同時需兼顧流程調整彈性與降低系統開發維運負擔。下列哪一種技術組合最適合? 

(A) Low-Code平台 × 預訓練語言模型 API; 
(B) No-Code 平台 × 規則式自動化(Rule-based Automation); 
(C) 傳統程式開發 × 自建深度學習模型; 
(D) 試算表工具 × 手動資料標記分析

說明

正確答案是 (A) Low-Code 平台 × 預訓練語言模型 API。

這題考察的是醫療機構在面對「行政自動化」需求時,如何平衡開發效率、系統彈性與技術門檻。

(A) 為正確答案:

Low-Code 平台: 醫療院所各科室需求多變且零碎。Low-Code(低程式碼)平台能讓行政人員或 IT 快速搭建表單與簽核流程,並保有調整欄位與路徑的彈性,大幅降低開發與維運負擔。

預訓練語言模型 API: 對於「判讀與分類內容」,直接呼叫成熟的預訓練模型(如 Gemini、GPT 系列)API,可以快速實現精準的語意理解(判斷問題類型、需求性質),無需從頭訓練模型,符合快速導入的需求。

(B) 錯誤: 規則式自動化(Rule-based) 依賴關鍵字匹配(如:如果出現「電腦」,就分類為「資訊需求」)。垃圾訊息或複雜描述往往無法透過簡單規則準確判讀,且維護規則庫非常繁瑣,缺乏 AI 的語意理解能力。

(C) 錯誤: 傳統程式開發與自建模型 雖然最精準,但開發週期極長、需要專業資料科學家與工程師團隊,且後續維運成本極高。對於「科室人員自行建立」的初衷來說,門檻過高。

(D) 錯誤: 試算表與手動標記 雖然成本最低,但無法達成「改善行政效率」與「自動判讀」的目標,本質上仍是傳統的純人工作業。

企業應用開發組合對照

技術組合 建置速度 語意判讀能力 維運負擔
Low-Code + AI API 極快 強 (具深度語意理解)
No-Code + 規則式 弱 (僅限關鍵字)
傳統開發 + 自建模型 極強

解題關鍵:當需求包含 「人員自行建立(易用性)」、「自動判讀內容(AI)」 與 「降低維運負擔(低成本)」 時,Low-Code 結合現成的 AI API 是目前數位轉型中最具成本效益(Cost-effective)的黃金組合。


34. 某企業導入 No-Code/Low-Code 平台開放各部門自行開發應用。半年後發現:出現多個功能相近系統、資料欄位定義不一致,且部分應用未經審核即上線,並伴隨權限與維運管理混亂。下列何者最可能為根本問題?

(A) 缺乏統一的開發與上線管理機制; (B) 平台提供過高的應用設計自主性; (C) 部門未建立共用的資料分析呈現標準; (D) 系統整合與自動化能力尚未完善 

說明

正確答案是 (A) 缺乏統一的開發與上線管理機制。

這題考察的是企業導入 No-Code/Low-Code 平台時最常見的挑戰——影子 IT(Shadow IT) 與 治理(Governance) 問題。

(A) 為正確答案:

根本原因: 當企業開放各部門「自行開發」時,如果沒有建立一套中央管理的 「治理框架(Governance Framework)」,就會導致失控。

現象對應: * 「功能相近系統」:因為缺乏跨部門的開發申請與審核機制,導致資源重複投入(重複造輪子)。

「資料欄位不一致」:缺乏統一的數據字典或資料建模規範。

「未經審核即上線、權限混亂」:缺乏標準的 生命週期管理(SDLC) 與安全部署流程。

(B) 錯誤: 平台提供「自主性」是 No-Code/Low-Code 的核心優點。問題不在於自主性高低,而在於企業沒有在自主性的基礎上建立合適的「守欄人(Guardrails)」制度。

(C) 錯誤: 資料分析呈現標準(如報表樣式)僅影響外觀,無法解決系統重複開發、數據定義衝突或資安權限混亂等深層管理問題。

(D) 錯誤: 系統整合能力是「功能面」的問題,而題幹描述的是「管理面」的混亂。即使整合能力再強,若管理流程缺失,依然會發生權限與維運的災難。

企業低程式碼開發的治理三支柱

治理範疇 具體做法 解決的痛點
開發管理 建立「應用中心」,上線前需經過 IT 審查。 避免重複開發、確保架構合理。
數據治理 定義標準化的資料模型(Common Data Model)。 解決資料欄位定義不一、數據孤島問題。
運維與安全 統一的權限控制 (RBAC) 與監控日誌。 解決未經授權上線、資安漏洞與維運風險。

解題關鍵:當題目描述 「功能重複」、「定義不一」、「未審核即上線」 時,通常都是在指涉 「治理(Governance)」 或 「管理機制(Management Mechanism)」 的缺失。在數位轉型中,「工具(平台)」的引入必須搭配相應的「流程(管理)」,否則會從效率提升變成維運噩夢。


35. 在生成式AI文字生成模型設計中,Encoder–Decoder與Decoder-only為常見架構。下列何者最能正確說明兩者在資訊處理與生成機制上的核心差異?

(A) Encoder–Decoder透過編碼與解碼階段處理序列,Decoder-only則以單一模型完成處理;
(B) Encoder–Decoder區分輸入理解與內容生成階段,Decoder-only以單一模型同時處理上下文與生成;
(C) Decoder-only架構主要依賴外部知識檢索,Encoder–Decoder則不需要;
(D) Encoder–Decoder架構僅適用於翻譯任務,Decoder-only架構較適合對話任務

說明

正確答案是 (B) Encoder–Decoder 區分輸入理解與內容生成階段,Decoder-only 以單一模型同時處理上下文與生成。

這題考察的是大型語言模型(LLM)底層 Transformer 架構的兩大主流演進方向。

(B) 為正確答案:

Encoder-Decoder (編碼器-解碼器): 將任務分為兩步。Encoder 負責「深度理解」輸入的內容(雙向注意力機制),轉化為抽象特徵;Decoder 則根據這些特徵「生成」對應內容。這種結構在處理輸入與輸出有明確對應關係的任務時非常精確。

Decoder-only (僅解碼器): 這是目前主流 LLM(如 GPT 系列)採用的架構。它不區分獨立的編碼階段,而是將輸入的 Prompt 與生成的文字視為同一個序列,透過自回歸(Autoregressive)方式,在預測下一個字時同時處理之前的上下文。這使得模型在處理開放式對話與長文本時效率極高。

(A) 錯誤: 敘述過於籠統。「單一模型」的說法不夠精確,因為 Decoder-only 內部的機制依然涉及複雜的序列處理,核心差異在於是否將「理解」與「生成」在結構上解耦。

(C) 錯誤: 外部知識檢索(RAG)是一種外部技術應用,與模型底層是 Encoder-Decoder 還是 Decoder-only 無直接關係。兩者都可以搭配 RAG 使用。

(D) 錯誤: 這是過時的刻板印象。雖然 Encoder-Decoder 最初在機器翻譯(如 T5, BART)表現優異,但現在的 Decoder-only 架構透過強大的參數規模,在翻譯與對話任務上都展現了卓越的通用性。

架構特性對照表

特性 Encoder-Decoder Decoder-only
代表模型 T5, BART, Google Translate GPT-4, Claude, Llama, Gemini
資訊流 輸入經 Encoder 處理後傳給 Decoder。 全序列統一處理,僅看過去的內容。
擅長任務 翻譯、摘要(輸入輸出高度相關)。 對話、故事創作、程式碼生成(開放性)。
現代趨勢 逐漸轉向專門用途。 成為通用大型語言模型的主流標準。

解題關鍵:區分兩者的核心在於 「結構功能」。Encoder-Decoder 像是有「閱讀理解部」與「寫作部」兩個單位協作;而 Decoder-only 則是一個「全能作家」,在閱讀 Prompt 的同時就在醞釀如何接龍寫下去。


36. 某連鎖零售企業使用生成式AI協助規劃門市補貨策略。決策時需同時考量多項彼此相關的因素,例如:庫存水位、促銷活動、區域銷售差異與物流限制。專案團隊發現,AI雖能逐步說明推論過程,但對於多條件之間的相互影響掌握不足,導致建議結果偶有偏差。若希望透過提示工程(Prompt Engineering)改善此問題,下列哪一種策略最為適合?

(A) Chain of Thought,要求模型逐步展開推論;
(B) Tree of Thoughts,增加多種推論路徑探索;
(C) Graph Prompting,以結構化方式呈現條件與關聯;
(D) Zero-shot Prompting,避免範例影響模型判斷

說明

正確答案是 (B) Tree of Thoughts,增加多種推論路徑探索。

這題考察的是進階的提示工程(Prompt Engineering)策略,特別是針對需要處理「多重約束」與「複雜決策」的場景。

(B) 為正確答案:

核心機制: Tree of Thoughts (ToT, 思維樹) 是對「Chain of Thought (CoT)」的延伸。CoT 是線性的(一步接一步),而 ToT 則允許模型在每一個決策點生成多個不同的推論分支。

適用場景: 當補貨決策涉及「庫存、促銷、物流、銷售差異」等多個互相牽制的變數時,單一的推論路徑很容易忽略某個維度。ToT 讓模型能像玩西洋棋一樣,探索多個可能的路徑(例如:路徑 A 優先考慮物流,路徑 B 優先考慮促銷),並在內部進行自我評估與修正,最後找出最優解。

(A) 錯誤: Chain of Thought (CoT) 雖然能讓模型展開推論,但它是「線性」的。題目中提到 AI 已經「能逐步說明推論過程」,說明 CoT 已經在使用,但其弱點在於難以同時處理多個「非線性」的衝突條件。

(C) 錯誤: Graph Prompting 通常用於處理具有複雜知識圖譜結構的資料(如社交網路或化學分子結構),雖然它強調關聯,但在標準的生成式 AI 決策優化中,ToT 才是目前公認解決「複雜搜索與多條件決策」最主流的思維框架。

(D) 錯誤: Zero-shot 完全不給範例,會讓模型在面對複雜商業邏輯(如補貨、物流)時更容易產生幻覺或忽略特定限制。

提示工程策略演進

策略 運作方式 適合場景
CoT (Chain) 第一步、第二步、最後結果。 簡單的邏輯運算、數學題。
ToT (Tree) 嘗試方案 A 與 B → 評估 → 延伸子方案 → 選擇最佳路徑。 多目標決策(如本題的補貨規劃)、複雜規劃任務。
Self-Consistency 生成多個 CoT 路徑,取多數決。 提高數學與常識判斷的準確率。

解題關鍵:當題目強調 「多項因素彼此相關」、「相互影響掌握不足」 且現有的逐步說明(CoT)仍有偏差時,代表需要更強的 「路徑探索與評估能力」,這正是 Tree of Thoughts 的核心價值。


37. 某電商平台導入生成式AI客服助理,用於自動回覆顧客詢問。營運需求包含:需即時反映每日更新的促銷活動與商品資訊,同時維持品牌一致的回覆語氣,且企業希望避免因模型重新訓練所造成的成本增加與系統不穩定。在此情境下,下列哪一種技術策略最合理?

(A) 僅進行 Fine-tuning,使模型同時學習品牌語氣與即時促銷內容; (B) 僅導入 RAG 更新促銷資訊,期望模型直接從檢索內容學習品牌語氣;  (C) 透過 Prompt Engineering 控制回覆風格,並以RAG引入最新商品與活動資訊;  (D) 持續進行增量 Fine-tuning,以確保活動資訊同步更新

說明

正確答案是 (C) 透過 Prompt Engineering 控制回覆風格,並以 RAG 引入最新商品與活動資訊。

這題考察的是如何在商業場景中平衡 「資訊時效性」、「品牌一致性」 與 「營運成本」。

(C) 為正確答案:

資訊時效性 (RAG): 電商平台的促銷活動與商品資訊「每日更新」,這類高頻率變動的資訊最適合使用 RAG (檢索增強生成)。系統只需更新後台的向量資料庫(文件或資料庫),AI 在回覆時會先檢索最新的活動內容,確保資訊精確且即時,無需重新訓練模型。

品牌一致性 (Prompt Engineering): 品牌語氣(如:親切、專業、幽默)屬於風格範疇,透過在 System Prompt(系統提示詞) 中定義明確的指令(例如:「你是一位專業且熱情的電商小幫手,請使用台灣繁體中文...」),即可穩定控制輸出的風格。

成本與穩定性: 這種組合完全避開了昂貴且耗時的 Fine-tuning,符合企業「避免成本增加與系統不穩定」的需求。

(A) 與 (D) 錯誤: Fine-tuning(微調) 雖然可以學習特定知識,但對於「每日更新」的資訊來說,每天微調模型在成本上極高,且頻繁微調容易導致模型產生「災難性遺忘(Catastrophic Forgetting)」,使系統變得極不穩定。

(B) 錯誤: 雖然 RAG 能提供正確資訊,但品牌語氣通常需要更明確的指令規範。僅靠檢索內容,模型可能無法穩定維持特定的服務態度與回覆格式。

技術策略組合效益分析

技術手段 解決的問題 優點
RAG (檢索) 每日更新的商品、價格、活動。 時效性最高、成本最低。
Prompt Engineering 回覆語氣、回覆格式、拒絕回答的邊界。 即時生效、無需訓練。
Fine-tuning (微調) 深層領域術語、極特殊的輸出風格。 適合靜態、長期不變的特定需求。

解題關鍵:當需求中同時出現 「頻繁變動的資訊(時效性)」 與 「控制成本/穩定性」 時,RAG 是處理外部資訊的最佳解,而 Prompt Engineering 則是處理風格與語氣最經濟的方式。兩者結合是目前企業客服 AI 的標準架構。


38. 某企業規劃導入生成式AI助理,在正式全面部署前進行概念驗證(PoC),下列何者最不適合作為此階段的主要工作?

(A) 驗證模型在實際使用情境下的回覆品質與穩定性;
(B) 測試AI功能與業務需求的匹配程度;
(C) 制定跨部門使用規範,與長期治理框架;
(D) 評估系統整合可行性與技術限制

說明

正確答案是 (C) 制定跨部門使用規範,與長期治理框架。

這題考察的是企業導入 AI 的生命週期中,概念驗證(PoC, Proof of Concept) 階段的核心目標與優先順序。

(C) 為正確答案(最不適合在此階段進行):

階段錯置: 「跨部門使用規範」與「長期治理框架(Governance Framework)」屬於 「規模化部署(Scaling)」 或 「營運治理(Operations)」 階段的工作。

PoC 的本質: PoC 的目的是「證明這件事行得通」。在還沒確定模型好不好用、技術能不能對接之前,花費大量行政資源去制定全公司的長期規範,會顯得過於早熟且缺乏實務數據支持。

(A) 屬於 PoC 核心: 驗證回覆品質(Quality)與穩定性(Stability)是 PoC 最基本的工作,用以確認 AI 是否真的能解決問題,而非產生嚴重的幻覺。

(B) 屬於 PoC 核心: 確保 AI 功能(Feature)真的能對應到業務痛點(Pain Point),而非只是技術上的噱頭。

(D) 屬於 PoC 核心: 在正式部署前,必須先評估現有的 IT 環境是否能與 AI API 或平台對接,確認有無技術上的阻礙(如資安限制或硬體瓶頸)。

企業 AI 導入的三個關鍵階段

階段 重點任務 目標
1. 概念驗證 (PoC) 技術測試、模型選擇、小範圍試點。 驗證可行性。
2. 試點開發 (Pilot) 系統整合、UI/UX 優化、收集使用者回饋。 準備進入生產環境。
3. 全面部署 (Production) 制定治理框架、教育訓練、規模化運維。 實現商業價值與合規管理。

解題關鍵:PoC 的關鍵字是 「驗證」、「測試」、「評估可行性」。而 「規範」、「治理」、「長期框架」 則是屬於 「管理面」 的工作,通常在技術驗證成功並準備擴大應用時才會正式進場。


39. 某企業規劃導入生成式 AI 客服系統,需處理顧客查詢並引用歷史交易資料。法遵部門在風險評估中指出,系統若不當處理顧客個人資料,可能引發合規與法律責任。若專案初期希望從資料層面降低敏感資訊暴露風險,下列敘述何者最為合理?

(A) 強化模型輸出審查與遮罩機制,以過濾可能出現的敏感資訊;
(B) 設定AI回覆範圍與角色權限,限制其存取特定類型資料;
(C) 將資料集中於加密儲存環境,並加強系統存取控管;
(D) 僅提供必要資料或數據欄位與去識別化策略,減少模型接觸可識別個資

說明

正確答案是 (D) 僅提供必要資料或數據欄位與去識別化策略,減少模型接觸可識別個資。

這題考察的是企業導入 AI 時的 資料隱私保護(Data Privacy) 與 去識別化(De-identification) 策略,特別是強調從「資料層面(Data Level)」著手。

(D) 為正確答案:

資料最小化 (Data Minimization): 這是法遵與風險控管的最核心原則。如果 AI 只需要分析「購買頻率」和「商品類別」,就不應該把「姓名」、「身份證字號」或「詳細地址」傳送給模型。

去識別化(Anonymization/Pseudonymization): 在將歷史交易資料餵給 AI 或 RAG 系統前,先透過遮蓋、替換或雜湊技術處理敏感資訊。這樣即使模型發生幻覺或遭到提示詞攻擊(Prompt Injection),洩漏的風險也會被降到最低,因為模型從頭到尾都沒有接觸過真正的個資。

專案初期: 這是成本最低、效果最直接的手段,能從源頭阻斷風險。

(A) 錯誤: 強化輸出審查屬於「出口管控」。雖然重要,但這屬於事後過濾,若敏感資訊已經進入模型或上下文窗口(Context Window),資料暴露的風險依然存在(例如透過逆向工程或漏洞引發)。

(B) 錯誤: 角色權限管理屬於「存取控制(Access Control)」。這能決定誰可以使用 AI,但無法解決「AI 系統本身」處理資料時的隱私外洩風險。

(C) 錯誤: 加密與系統控管屬於「基礎設施安全」。這能防止駭客入侵資料庫,但無法防止 AI 在生成對話時意外吐露儲存在裡面的敏感資訊。

AI 隱私保護層次

防護層次 具體手段 特性
資料層 (Data) 去識別化、遮罩 (Masking)、資料最小化。 最根本、風險最低。
模型層 (Model) 差異隱私 (Differential Privacy)、模型過濾。 技術門檻較高。
應用層 (App) 輸出內容檢查 (Output Guardrails)、權限設定。 最後一線防護,但非絕對可靠。

解題關鍵:題目強調 「專案初期」 且 「從資料層面降低風險」。最符合邏輯的做法就是「不讓模型看到不該看的資料」,這通常涉及 去識別化 或 欄位過濾。


40. 某企業導入大型語言模型(LLM)進行客服自動化,並已透過 Fine-Tuning 學習企業標準問答範例,但在實務運作中仍出現回應策略未符合服務優先順序及語氣與品牌風格不一致的情況,因此技術團隊建議再導入 Reinforcement Fine-tuning(RFT)機制進行優化,其主要目的為何?

(A) 擴展模型的知識涵蓋範圍與資料記憶能力;
(B) 透過 reward 訊號調整模型回應策略與行為偏好;
(C) 提升模型推論速度與降低回應延遲;
(D) 降低 prompt 設計複雜度並取代訓練流程

說明

正確答案是 (B) 透過 reward 訊號調整模型回應策略與行為偏好。

這題考察的是 強化學習微調(Reinforcement Fine-tuning, RFT),特別是與 RLHF(來自人類回饋的強化學習) 相關的行為校準機制。

(B) 為正確答案:

核心機制: 傳統的微調(Supervised Fine-Tuning, SFT)是讓模型「模仿」範例,但模型不一定理解「為什麼這樣回比較好」。RFT/RLHF 則是引入一個獎勵模型(Reward Model),針對模型生成的不同回覆給予評分(Reward)。

調整行為偏好: 當企業發現 AI 的「語氣不一致」或「優先順序錯誤」時,可以透過獎勵訊號告訴模型:當顧客生氣時,優先道歉的回覆會得到高分;冷漠的回覆會得到低分。這能精確地引導模型的行為準則與價值取向,使其符合品牌風格。

(A) 錯誤: 擴展知識範圍通常依賴 RAG(檢索增強) 或 大規模預訓練/持續預訓練。強化學習的主要功能是「對齊(Alignment)」,而非增加記憶體。

(C) 錯誤: 提升速度與降低延遲屬於 模型優化(Optimization) 範疇,如量化(Quantization)、剪枝(Pruning)或更換更強大的推論引擎,與強化學習的目標無關。

(D) 錯誤: 強化學習本身就是一個極其複雜的「訓練流程」,它無法取代 Prompt 設計,更不可能降低其複雜度;相反地,RFT 通常是在 Prompt Engineering 與 SFT 都無法完全解決行為偏差時,才會動用的進階手段。

AI 訓練的三個階段

階段 訓練方式 目的
階段訓練方式目的1. 預訓練 (Pre-training) 自監督學習 (Self-supervised) 學習海量的通用知識與語言規律。
2. 指令微調 (SFT) 監督式學習 (Supervised) 學習「問與答」的格式,學會聽從指令。
3. 強化學習 (RLHF/RFT) 獎勵機制 (Reward-based) 對齊人類價值觀、調整語氣、校準行為偏好。

解題關鍵:當題目提到 「語氣不一致」、「行為不符預期」 且已經做過微調(Fine-tuning)卻效果有限時,下一步通常就是利用 「獎勵訊號 (Reward)」 來校準模型行為的 強化學習 (Reinforcement Learning) 機制。


41. 企業在評估AI決策模型是否存在資料分布偏差時,下列何者最屬於偏見檢測(Bias Detection)而非偏見緩解(Bias Mitigation)措施?

(A) 比較不同資料分布的模型預測結果分布與錯誤率;
(B) 重新加權訓練樣本以平衡資料分布代表性;
(C) 在推論階段加入輸出過濾規則;
(D) 調整模型決策閾值(Decision Threshold)以降低預測差異

說明

正確答案是 (A) 比較不同資料分布的模型預測結果分布與錯誤率。

這題考察的是「AI 治理與公平性」中,「檢測(Detection)」與「緩解(Mitigation)」兩者定義的區別。簡單來說,「檢測」是發現問題,「緩解」是解決問題。

(A) 為正確答案(屬於檢測措施):

核心定義: 檢測是指透過量化指標來確認模型是否存在不公平現象。

作法: 透過統計方法觀察不同群體(如性別、年齡、地區)在模型預測中的錯誤率(如偽陽性率、偽陰性率)是否一致。這是在「診斷」模型是否有偏差,並沒有對模型本身進行修改或補救。

(B) 錯誤(屬於緩解措施):

重新加權(Reweighting): 這是在訓練階段對資料進行干預,藉由給予少數群體更高的權重,主動「解決」資料分布不均的問題。

(C) 錯誤(屬於緩解措施):

輸出過濾(Post-processing): 這是在推論階段透過規則強行修正結果,以「減少」最終呈現給使用者的偏差。

(D) 錯誤(屬於緩解措施):

調整閾值: 針對不同群體設定不同的過門檻(例如 A 群體 0.5 就通過,B 群體 0.4 就通過),目的是為了「平衡」預測結果,屬於事後補救行為。

AI 公平性生命週期:檢測 vs. 緩解

階段 類型 具體手段範例
預處理 (Pre-processing) 緩解 抽樣調整、對敏感特徵進行脫敏、重新加權。
處理中 (In-processing) 緩解 在損失函數中加入公平性約束、對抗性訓練。
後處理 (Post-processing) 緩解 調整決策閾值、輸出結果過濾、自動化修正。
全面評估 (Assessment) 檢測 差異分析、群體指標比較、錯誤率矩陣分析。

解題關鍵:區分檢測與緩解最快的方法是看動作的目的是 「觀察與發現(檢測)」 還是 「干預與修正(緩解)」。選項 (A) 的目的是「比較」,這是一個典型的觀察與量化行為。


42. 某企業希望利用含敏感資訊的資料進行AI模型訓練,但政策要求原始資料不得外洩,且資料可集中於安全環境中處理。同時,企業希望在資料使用過程中,即使資料處於加密狀態,仍能完成模型計算。在此需求下,下列哪一種技術最為適合? 

(A) 聯邦學習(Federated Learning);  (B) 同態加密(Homomorphic Encryption);  (C) 零知識證明(Zero-knowledge Proof);  (D) 資料匿名化(Data Anonymization)

說明

正確答案是 (B) 同態加密(Homomorphic Encryption)。

這題考察的是 隱私運算(Privacy-Preserving Computing) 技術。題目中有兩個最關鍵的技術需求:

資料處於加密狀態下仍能完成計算。

資料可集中處理(這點排除了聯邦學習的主要情境)。

(B) 為正確答案:

核心特性: 同態加密是一種特殊的加密技術,它允許直接在「密文」上進行數學運算,且運算結果在解密後,與直接在「明文」上進行相同運算的結果是一致的。

適用場景: 這完美符合題目要求的「即使資料加密,仍能完成模型計算」。企業可以將加密後的敏感資料交給伺服器訓練 AI,伺服器全程看不到資料內容,卻能產出訓練好的模型。

(A) 錯誤: 聯邦學習(Federated Learning) 的核心是「資料不動、模型動」。它適合資料「分散」在各個終端(如各個醫院或手機),不需要集中處理。雖然它能保護隱私,但其運作並非基於「在加密狀態下進行運算」。

(C) 錯誤: 零知識證明(Zero-knowledge Proof) 是指證明者能在不向驗證者提供任何有用資訊的情況下,使驗證者相信某個論斷是正確的。它通常用於身分驗證或交易有效性證明,不適合大規模的「模型訓練計算」。

(D) 錯誤: 資料匿名化 屬於資料預處理。雖然能降低外洩風險,但它不屬於「加密狀態下的運算技術」,且過度的匿名化可能會導致資料特徵流失,進而影響模型訓練的準確度。

常見隱私運算技術對照

技術名稱 核心概念 適用情境
同態加密 在密文上直接運算。 資料需集中、全程加密運算。
聯邦學習 各節點訓練模型,僅交換參數。 資料分散在多處且不願共享資料。
零知識證明 證明「我知道」,但不說出「內容」。 身分驗證、隱私交易證明。
差分隱私 在資料中加入雜訊。 統計分析,防止反向推導個資。

解題關鍵:看到 「加密狀態下仍能完成計算」,在資安與 AI 領域中,這幾乎就是 同態加密 的專屬定義。


43. 某金融服務公司規劃導入生成式AI,在評估模型部署方式時,基於內部控制與治理要求,企業考慮將大型語言模型建置於公司可管理環境,而非直接採用外部雲端服務。下列何者最能合理說明此部署決策的潛在優勢?

(A) 有助提升模型回覆穩定性並降低隨機性影響; (B) 可降低敏感資料需傳輸至外部服務的風險; (C) 可直接減少模型訓練與維運所需資源投入; (D) 可避免模型輸出偏差與幻覺(Hallucination)問題

說明

正確答案是 (B) 可降低敏感資料需傳輸至外部服務的風險。

這題考察的是企業在選擇 「地端/私有雲部署(On-premise/Private Cloud)」 與 「公有雲 API 服務(Public Cloud)」 之間的權衡。

(B) 為正確答案:

資料主權與安全性: 對於金融業而言,客戶交易資料、個資及內部財務數據 是高度敏感的。若直接採用外部雲端服務(如 OpenAI 或 Anthropic 的 API),資料必須傳輸至廠商的伺服器。

地端部署優勢: 將模型建置於公司「可管理環境」中,意指所有數據的流動與處理都在企業防火牆內完成。這能有效阻斷資料外洩至第三方的風險,完全符合金融業嚴格的合規與內部控制要求。

(A) 錯誤: 模型回覆的穩定性與隨機性(如 Temperature 設定)是由模型參數與推論演算法決定的,不論部署在哪裡,隨機性影響依然存在,且地端部署未必能優於雲端服務的穩定性。

(C) 錯誤: 地端部署通常會「增加」資源投入。企業必須自行採購昂貴的 GPU 設備、建置算力基礎設施,並負擔模型部署後的軟硬體維運人力與電力成本,而非減少。

(D) 錯誤: 偏差(Bias)與幻覺(Hallucination)是大型語言模型底層架構的問題。將模型搬到地端並不會自動解決這些問題,仍需透過 RAG、Prompt Engineering 或 Fine-tuning 來改善。

地端部署 (On-premise) vs. 雲端 API (Cloud API) 比較

評估維度 地端/私有環境部署 外部雲端 API 服務
資料隱私 極高(數據不離開企業網域) 中(需依賴服務商的資安協議)
合規性 最符合金融、政府等嚴管產業。 需面臨法律與跨境傳輸合規挑戰。
初期成本 高(需購買硬體、架設環境)。 低(隨用隨付)。
維運難度 高(需自行維護硬體與更新模型)。 低(服務商負責維護)。

解題關鍵:當金融或政府單位強調 「內部控制」、「治理要求」 與 「可管理環境」 時,其決策的核心考量幾乎都是為了 「資安」 與 「資料保護」,即防止敏感資料流向外部。


44. 某智慧製造廠導入語音互動AI助理,作業人員可透過語音查詢設備狀態與操作指引。系統流程包含語音轉文字、語言模型生成回覆,以及即時查詢內部系統資料。測試結果顯示:語音轉文字在專業設備術語上錯誤率偏高;語言模型回覆偶有內容不夠精準;系統整體回應速度略慢但仍在可接受範圍。若專案目標為優先確保正確執行指令,下列改進措施的執行順序何者最合理?

(A) 優化語言模型 → 強化語音模型 → 優化系統效能 → 調整生成參數;
(B) 強化語音模型 → 優化語言模型與知識補充 → 調整生成參數 → 優化系統效能;
(C) 優化系統效能 → 強化語音模型 → 優化語言模型與知識補充 → 調整生成參數;
(D) 強化語音模型 → 優化系統效能 → 優化語言模型與知識補充 → 調整生成參數

說明

正確答案是 (B) 強化語音模型 → 優化語言模型與知識補充 → 調整生成參數 → 優化系統效能。

這題考察的是 AI 系統整合流程中的「錯誤傳導(Error Propagation)」 概念。在一個多階段的 AI 工作流中,第一階段的錯誤會直接導致後面所有階段失效。

(B) 為正確答案:

強化語音模型(第一優先): 系統流程是「語音轉文字 (STT) → 語言模型 (LLM)」。如果第一關的專業術語轉寫錯誤(例如將「氣壓閥」轉為「起壓罰」),後面的語言模型再強也無法理解錯誤的輸入。因此,解決源頭錯誤是首要任務。

優化語言模型與知識補充(第二優先): 在確保輸入文字正確後,針對「回覆不夠精準」的問題,應透過 RAG(知識補充)或 Fine-tuning 提升模型對設備操作指引的專業度。

調整生成參數(第三優先): 這是微調階段,透過調整如 Temperature 或 Top-p 來確保輸出的穩定性。

優化系統效能(最後): 題目提到「速度略慢但仍在可接受範圍」,且目標是「優先確保正確執行」,因此效能優化雖然重要,但在正確性未達成前,順序排在最後。

(A) 錯誤: 若不先解決語音轉文字的錯誤,優化後端的語言模型只是徒勞無功(Garbage in, Garbage out)。

(C) 與 (D) 錯誤: 將「系統效能」排在「正確性」之前,不符合題目「優先確保正確執行指令」的專案目標。

智慧語音助理的處理鏈與錯誤傳導

處理階段 故障現象 解決策略
1. 語音轉文字 (STT) 專業術語聽錯、諧音誤判。 優化語音模型、加入專業術語辭典。
2. 語言模型 (LLM) 邏輯錯誤、胡言亂語(幻覺)。 導入 RAG 檢索正確說明書資料。
3. 系統回應 (Latency) 回答太慢。 模型量化、異步處理或升級硬體。

解題關鍵:解決串聯系統問題時,必須 「由前向後」 處理。先確保 輸入資料 (Input) 的正確性(語音模型),再解決 處理邏輯 (Logic) 的精準度(語言模型),最後才是 速度 (Performance) 的優化。


45. 某企業導入生成式AI助理,協助內部人員撰寫專案建議與分析報告。團隊希望透過思維鏈(Chain of Thought, CoT)提示設計提升模型輸出的邏輯性與推理透明度,下列何者最符合該提示策略?

(A) 「請直接給出最終建議,不需顯示分析過程。」;
(B) 「以下提供兩份分析報告範例,請依相同格式產出新報告。」;
(C) 「請將任務拆為三個步驟:資料整理 → 重點摘要 → 建議產出。」;
(D) 「請逐步說明你的判斷依據與推理過程,最後再給出結論。」

說明

正確答案是 (D) 「請逐步說明你的判斷依據與推理過程,最後再給出結論。」

這題考察的是 思維鏈(Chain of Thought, CoT) 提示工程技術的核心定義與應用。

(D) 為正確答案:

核心定義: CoT 的關鍵在於要求模型在給出最終答案之前,先展示其中間的推理步驟。這就像在數學考試中要求「列出計算過程」而不僅是寫答案。

主要目的: 透過強迫模型「思考」,能顯著提升其處理複雜邏輯、算術推導或常識推理任務的準確性。同時,這也增加了回覆的透明度,讓使用者能檢查 AI 的邏輯是否正確。

常用指令: 在 Prompt 中加入「Let's think step by step」(讓我們一步步思考)或「請詳細說明推論過程」,都是典型的 CoT 觸發方式。

(A) 錯誤: 這屬於「直接回答」,與 CoT 要求的「展現推理過程」背道而馳。

(B) 錯誤: 這屬於 Few-shot Prompting(少樣本提示)。雖然範例中可以包含 CoT(即 Few-shot CoT),但單純提供範例格式而不強調推理過程,並非 CoT 的核心特徵。

(C) 錯誤: 這屬於 Task Decomposition(任務拆解)。雖然任務拆解有助於處理複雜工作,但 CoT 強調的是模型內部的邏輯推理鏈,而不僅僅是工作階段的劃分。

思維鏈 (Chain of Thought) 的運作邏輯

提示策略 模型表現 適用場景
直接提示 (Standard) 直接產出結論,可能跳過邏輯導致錯誤。 簡單的問答、事實查詢。
思維鏈 (CoT) 先產出中間推理步驟,再得出最終答案。 邏輯推論、專案分析、複雜決策。

解題關鍵:看到 Chain of Thought (CoT),關鍵字就是 「逐步 (Step by step)」、「推理過程 (Reasoning process)」。它是讓大型語言模型從「直覺反應」轉向「深度思考」的最有效提示技巧。


46. 某金融監理機構規劃導入生成式AI以協助內部人員分析申報文件與監理報告,系統需處理大量涉及企業敏感資料與未公開資訊。主管機關明確要求「資料安全與法規遵循必須優先於導入速度與成本考量」。在此條件下,下列哪一種策略最為適當? 

(A) 採用雲端大型語言模型 API,並透過資料遮罩與加密機制降低外洩風險; 
(B) 導入開源模型進行私有化部署,以兼顧成本彈性與模型可控性; 
(C) 自行訓練並私有化部署模型,同時建立存取控管與稽核機制; 
(D) 先驗證模型效益,再逐步補強合規與資安架構 

說明

正確答案是 (C) 自行訓練並私有化部署模型,同時建立存取控管與稽核機制。

這題的核心關鍵在於 「金融監理機構」 的特殊身分,以及主管機關明確要求的 「安全與合規優先於速度與成本」。

(C) 為正確答案:

私有化部署(On-premise): 處理「企業敏感資料」與「未公開資訊」時,為了符合最嚴格的法規遵循(Compliance),資料絕不能離開機構的受控環境。私有化部署能確保數據主權完全掌握在機構手中。

自行訓練(Self-training): 雖然成本最高、速度最慢,但針對金融監理這種高度專業且敏感的領域,自行訓練模型能確保模型不包含外部不可控的偏差,且能針對特定監理術語進行深度優化。

存取控管與稽核: 這是金融監理不可或缺的制度,確保每一筆資料的存取與 AI 的生成行為都有跡可循,滿足法遵審查需求。

(A) 錯誤: 即使有加密與遮罩,雲端 API 本質上仍涉及資料跨境或離開機構內網的風險。在「法規優先於成本」的前提下,雲端方案通常不是首選。

(B) 錯誤: 「兼顧成本彈性」不符合題幹中「法規優先於成本」的順位。雖然開源模型私有化部署是可行路徑,但與 (C) 相比,(C) 展現了最高等級的安全控管意圖。

(D) 錯誤: 「先驗證效益、再補強合規」這屬於常見的企業開發思維,但完全違反了金融監理機構「法規優先」的基本原則。在金融業,合規必須是「由設計起始(Security by Design)」,而非事後補強。

金融監理級 AI 導入考量

考量維度 一般企業 金融監理機構
首要目標 效率提升與創新。 法律合規與風險控管。
資料處理 追求雲端便利性。 極度重視數據主權與內部部署。
成本承受度 講求投資報酬率 (ROI)。 為了安全與合規,可接受高成本。
透明度要求 只要結果好用即可。 必須具備完整的操作稽核與可解釋性。

解題關鍵:當題目設定在 「金融監理」 且 「法規與安全 > 成本與速度」 時,答案必須選擇 最保守、最安全且控制權最高 的方案。「私有化部署」 與 「嚴格稽核機制」 是此類情境的標準組合。


47. 某製造企業規劃導入生成式 AI 協助產線異常紀錄分析,系統將根據設備回報與維修紀錄自動產出問題摘要與建議處置說明。在試行測試階段,為降低營運與決策風險,下列何者最應優先驗證?

(A) AI生成建議與實際工程判斷的一致性與正確性;
(B) 系統在高資料量輸入下的處理速度與延遲表現;
(C) 模型對不同設備品牌資料格式的轉換能力;
(D) 異常分析報告的視覺化呈現與介面易讀性 

說明

正確答案是 (A) AI 生成建議與實際工程判斷的一致性與正確性。

這題考察的是企業導入 AI 系統時的 「風險評估優先順序」。在製造業的產線環境中,「決策錯誤」可能導致停工、設備損壞,甚至工安事故。

(A) 為正確答案:

核心風險: 製造業產線異常(如機台過熱、震動異常)的判斷非常依賴專業經驗。如果 AI 提供的「問題摘要與建議處置」與實際工程邏輯不符(例如:明明是馬達老舊卻建議增加電壓),可能會引導維修人員做出錯誤決策。

驗證必要性: 為了降低「營運與決策風險」,首要任務是確保 AI 這個「大腦」輸出的結果是正確且可靠的。這通常透過與資深工程師的判斷進行比對來驗證。

(B) 錯誤: 處理速度與延遲(效能)雖然重要,但在「正確性」尚未達標前,快速地產出錯誤的建議反而會加速風險的擴散。

(C) 錯誤: 資料格式轉換能力屬於「資料預處理」的技術細節。雖然會影響系統開發的難度,但與「降低決策風險」的直接關聯性較 (A) 低。

(D) 錯誤: 視覺化與易讀性(UI/UX)屬於使用者體驗層面。一份格式漂亮但內容錯誤的報告,對產線營運來說是毫無價值的。

AI 系統驗證的層次結構

驗證層級 關注重點 目的
1. 正確性與一致性 模型輸出內容 vs. 專家經驗。 確保決策安全、降低營運風險。
2. 穩健性 (Robustness) 異常資料或不完整紀錄的處理能力。 避免在极端情況下失控。
3. 系統效能 回應延遲、並發處理量。 確保符合生產現場的即時性需求。
4. 易用性 介面設計、報表格式。 提升一線人員的操作意願。

解題關鍵:當題目提到 「降低營運與決策風險」 時,答案幾乎總是與 「正確性」、「安全性」 或 「可靠性」 相關。在製造業(Smart Manufacturing)中,正確執行指令的優先權永遠高於界面美觀或處理速度。


48. 某企業將機器學習模型部署於線上推薦系統。模型在測試階段表現良好,但上線數月後,點擊率與預測準確度逐漸下降。經分析發現,近期使用者行為模式與模型訓練期間的資料特徵出現顯著變化。此現象最可能屬於下列何者?

(A) 模型過度擬合訓練資料,無法泛化至未知樣本; (B) 特徵工程設計不佳,導致輸入資訊不足; (C) 資料統計特徵隨時間改變,影響模型推論效果; (D) 系統資料結構調整,造成特徵欄位錯置

說明

正確答案是 (C) 資料統計特徵隨時間改變,影響模型推論效果。

這題描述的是機器學習模型維運中最常見的挑戰之一:「模型衰退 (Model Decay)」,專業術語稱為 「概念漂移 (Concept Drift)」 或 「資料漂移 (Data Drift)」。

(C) 為正確答案:

現象定義: 推薦系統非常依賴使用者的行為模式(如當季流行、流行語、新的消費習慣)。當「近期使用者的行為模式」與「模型訓練期間的資料」出現顯著差異時,代表模型當初學到的規律已經過時了。

統計特徵改變: 這意味著輸入特徵的分布(Distribution)發生了變化,導致模型原本建立的數學關聯性不再適用,進而造成準確度下降。這在電商、新聞推薦與金融預測中非常普遍。

(B) 錯誤: 如果是特徵工程設計不佳,模型在「測試階段」就不會有良好的表現。題目提到測試階段表現良好,說明特徵設計在當時是有效的。

(D) 錯誤: 雖然欄位錯置也會導致準確度下降,但這屬於「工程錯誤(Bug)」,通常會導致準確度「斷崖式」墜落,而非題目描述的「數月後逐漸下降」的漸進式過程。

(A) 錯誤: 過度擬合(Overfitting)會在模型一上線(遇到新資料)時就表現不佳,而不是在穩定運行數月後才出現問題。

模型效能下降的常見原因對照

現象 發生時機 根本原因
概念/資料漂移 上線一段時間後。 使用者偏好或外部環境改變(如:換季)。
過度擬合 (Overfitting) 研發/剛上線時。 模型太複雜,只記住訓練資料的雜訊。
工程錯誤 (System Bug) 系統更新後。 資料格式錯誤、欄位對齊失敗。

解題關鍵:當題目提到 「上線數月後逐漸下降」 且 「使用者行為與訓練資料出現變化」 時,標準答案就是 資料/概念漂移 (Drift),也就是統計特徵隨時間產生了位移。


49. 某企業使用Low-Code平台建置內部營運系統,系統需整合財務、庫存與第三方物流服務。團隊希望確保系統在跨部門流程與外部服務整合下,具高可靠性與可測試性。下列哪一項作法最能達成目標?

(A) 只透過平台提供的流程模擬與即時預覽,檢查常用操作路徑; (B) 建立自動化測試流程,結合模擬外部服務與可重複執行的整合測試; (C) 將測試重點放在使用者介面操作,確認操作流程是否順暢; (D) 上線後再透過使用者回饋與報表監控系統行為,進行修正 

說明

正確答案是 (B) 建立自動化測試流程,結合模擬外部服務與可重複執行的整合測試。

這題考察的是 Low-Code 平台在複雜企業環境中的「可靠性(Reliability)」與「可測試性(Testability)」。

(B) 為正確答案:

核心挑戰: 該系統需整合「財務、庫存、第三方物流」,這涉及多個系統間的資料流與 API 調用。任何一端(尤其是外部物流服務)發生變動或斷線,都可能導致流程中斷。

自動化測試: 在低程式碼開發中,手動測試往往難以覆蓋所有邊界情況。建立自動化測試能確保每次系統更新後,原有的業務邏輯依然正確。

模擬外部服務 (Mocking): 第三方物流服務可能有存取限制或費用問題,透過模擬器(Mock Service)可以在不依賴真實服務的情況下,重複測試系統對各種回傳狀態(如成功、延遲、錯誤碼)的處理能力,這大大提升了系統的可靠性。

(A) 錯誤: 「模擬與即時預覽」通常只能檢查前端介面的邏輯,難以模擬複雜的後端資料交互與外部 API 的異常處理。

(C) 錯誤: UI 測試(使用者介面)僅能確認「看起來沒問題」,但財務與庫存系統的核心在於資料一致性。只重視介面會忽略底層資料流與整合點的邏輯錯誤。

(D) 錯誤: 「上線後再修正」屬於被動維運。在涉及財務與物流的關鍵系統中,任何上線後的故障都可能造成實質損失(如漏單、帳務錯誤),不符合「高可靠性」的目標。

企業級 Low-Code 整合測試關鍵架構

測試類型 說明 目的
單元測試 (Unit Test) 針對 Low-Code 中的單一邏輯組件進行驗證。 確保基礎功能正確。
整合測試 (Integration) 測試系統與「財務」、「庫存」系統的對接。 確保資料在跨系統傳輸時不遺失。
模擬測試 (Mock Test) 使用虛擬的 API 替代「第三方物流服務」。 在不影響實際營運下,測試極端情況。

解題關鍵:當系統涉及 「跨部門流程」 與 「外部服務(第三方 API)」 時,「自動化」 與 「模擬(Mocking)」 是確保系統穩定性與可測試性的黃金準則。


50. 某招聘公司使用生成式AI生成面試問題與候選人評估建議。團隊發現模型可能對性別或年齡產生的資料分布偏差。下列哪一種策略最能有效降低生成偏差輸出的風險?

(A) 調整模型架構與參數,使生成更靈活與多樣化;
(B) 大幅增加訓練資料量,但不清理或平衡資料中的性別與年齡分布;
(C) 在生成後對模型輸出進行人工審查,並依偏差情況修正結果;
(D) 僅允許高階主管操作系統,透過人員篩選控制生成結果

說明

這題考察的是如何處理 AI 系統中的 「輸出偏差(Output Bias)」,特別是在涉及人力資源(HR)這種高度敏感、容易受到社會偏見影響的場景。

(C) 為正確答案:

人機協作 (Human-in-the-loop): 在目前的技術發展階段,AI 無法完全自動消除潛意識的偏見。透過「人工審查(Manual Review)」機制,由具備招募經驗與公平性意識的人員檢查 AI 生成的建議,是降低法律與倫理風險最實質、最有效的方法。

偏差修正: 透過人為干預,可以確保最終給予候選人的評估是基於專業職能,而非模型從過去不平衡資料中學到的性別或年齡偏見。

(A) 錯誤: 調整架構使生成「靈活與多樣化」並不等於「公平」。更靈活的模型反而可能生成更多具有創意但也更難察覺的隱性偏見。

(B) 錯誤: 這是典型的 「垃圾進,垃圾出(Garbage In, Garbage Out)」。如果訓練資料本身就包含性別或年齡歧視,单纯增加資料量只會讓 AI 更深地學習到這些偏差規律,導致問題惡化。

(D) 錯誤: 這屬於「操作權限控管」。雖然高階主管可能具備較好的判斷力,但如果 AI 輸出的內容本身就帶有偏見,單靠「誰來操作」並不能從根本上降低系統產出偏差內容的技術風險。

AI 偏見緩解的常見手段

策略類型 具體做法 本題對應
資料層 (Pre-processing) 移除敏感特徵(如照片、性別)、平衡樣本。 選項 (B) 的反向作法。
模型層 (In-processing) 加入公平性約束條件進行訓練。 難度較高,不適合所有企業。
輸出層 (Post-processing) 人工審查、關鍵字過濾、結果重排。 (C) 屬於此類,最為立竿見影。

解題關鍵:在 HR 招募(Recruitment)這種涉及人權與法規的場景,「人工最後審核」 與 「去識別化」 始終是風險控管的首選策略。單純依靠增加資料量或限制操作人數,都無法解決 AI 模型內部的統計偏見問題。


回 AI 首頁   回 iPAS 首頁