NICS國家資通安全研究院

公開文件

演講導讀 · AI ENGINEER · 2026

為什麼（資深）工程師
難以打造 AI Agent

Google DeepMind · Philipp Schmid · 10 分 39 秒演講的完整重點還原

NICS國家資通安全研究院

公開文件

本場地圖

四個層次，讀懂這場演講

01

核心論點

從「消除模糊的確定性」走向「管理不確定的機率性」。

02

核心比喻

你的角色：從交通管制員，變成調度員。

03

五個根本轉變

傳統工程習慣與 Agent 工程的五處正面衝突（含一覽矩陣）。

04

五條收斂原則

把上述轉變收斂成可操作的設計準則。

NICS國家資通安全研究院

公開文件

核心論點

過去的工程在「消除模糊」
Agent 要你「管理不確定性」

傳統軟體是確定性的：輸入 A ＋程式碼 B ＝永遠得到 C。Agent 是機率性的——你無法用程式碼把變異「寫掉」。

NICS國家資通安全研究院

公開文件

核心比喻

你的角色：從交通管制員，變成調度員

傳統軟體 · Traffic Controller

你規定每一步：固定路線、固定號誌。怎麼走，全由你決定。

AI Agent · Dispatcher

你只給目標（「從德國到倫敦」）。搭火車、飛、開車——路徑由 Agent 自己選。

NICS國家資通安全研究院

公開文件

開發流程的轉變

從「一次寫對」到「反覆迭代到可靠」

NICS國家資通安全研究院

公開文件

05

五個根本轉變

每一個，都是傳統工程習慣與 Agent 工程的正面衝突。先看一覽，再逐一展開。

NICS國家資通安全研究院

公開文件

五轉變一覽

傳統工程 vs Agent 工程，一眼看完

轉變	傳統工程	Agent 工程
① 文字即狀態	布林／旗標／資料結構	語意文字與情境
② 交出控制權	寫死的分支流程	信任模型臨場判斷
③ 錯誤即輸入	失敗就整個重跑	回饋模型、繼續前進
④ 測試→評測	斷言「同入同出」	量「做對幾次」＋ LLM 評審
⑤ API／工具	介面對人不言自明	為 Agent 自我說明

NICS國家資通安全研究院

公開文件

轉變 01 / 05

文字，就是新的「狀態」

傳統做法

狀態 = 資料結構

一切對應到布林值、旗標、欄位，可被精確檢查；無法承載語意。

Agent 做法

狀態 = 文字與情境

LLM 直接理解語意；狀態是自由文字（也可能是圖片、影音），不再是乾淨的結構化資料。

影片例子

深度研究 Agent 回傳計畫時，你能「核准的同時補方向」——聚焦美國、排除加州；不必走「否決 → 再追問 → 重做計畫」。個人化也一樣：平常用攝氏，但煮飯想用華氏，這種動態偏好無法只靠一個旗標表達。

NICS國家資通安全研究院

公開文件

轉變 02 / 05

交出控制權

傳統做法

寫死的分支流程

分類模型判斷意圖，再觸發預先定義的工作流；無法臨場、動態地反應。

Agent 做法

信任模型臨場判斷

Agent 理解話語含義，當場提出方案；不再處於純粹確定性的環境。

影片例子

退訂情境：傳統做法先分類「使用者想退訂」，再走「挽留 / 取消」的固定流程。但使用者可能在對話中改變心意，變成全新的意圖——這些有狀態的分支幾乎無法事先全部建模。解法是把控制權交給 LLM。

NICS國家資通安全研究院

公開文件

轉變 03 / 05

錯誤，只是另一種輸入

傳統做法

失敗就整個重跑

過去 HTTP 請求便宜，搜尋失敗就重來一次、重做全部工作，沒問題。

Agent 做法

把錯誤回饋給模型

一次跑 5–15 分鐘，中途失敗若打掉重練＝浪費算力、還丟失既有情境。

影片例子

類比 Go：函式回傳「值或錯誤」，兩者同等對待。Agent 也該如此——把錯誤當成正常輸入餵回模型，加上額外檢查與替代方案，讓流程「繼續往前」，而不是從頭開始。

NICS國家資通安全研究院

公開文件

轉變 04 / 05

從單元測試，走向評測（Evals）

傳統測試假設「同一輸入 → 永遠同一輸出」；Agent 是非確定性的，斷言式測試失效。我們改問「做對幾次」。

可靠度

做對幾次？

測重複成功率（Pass^k），而非「有沒有成功一次」。十次只成功一次的客服 Agent，太不穩、不能上線。

品質

誰來評？

結果是主觀的（研究報告 vs. 客訴回覆）。用 LLM as a Judge 或人類專家做質性評估。

追蹤

看過程，算結果

要追蹤中間步驟，但成敗以「最終產出」衡量。多花幾步、多耗 token 都行，結果對就算成功。

NICS國家資通安全研究院

公開文件

轉變 05 / 05

Agent 會演進，API 不會

傳統做法

介面「不言自明」

deleteItem(id) 對你很清楚，因為你有多年累積的隱性脈絡。

Agent 做法

為 Agent 而生的工具

Agent 看不到原始碼，只看得到 schema、docstring、工具定義——要自我說明、語意化。

影片例子

一個帶 ID 的 delete item 端點，對開發者不需要 docstring；但 Agent 第一眼看不出它會做什麼、失敗會怎樣。要把參數意義與失敗行為寫清楚，別假設使用者具備多年開發者的隱性知識。也要懂得：何時該用固定 workflow、何時才該用 Agent。

NICS國家資通安全研究院

公開文件

演講結論

五條收斂原則

把五個轉變，收斂成可以帶回團隊的設計準則。

NICS國家資通安全研究院

公開文件

收斂原則 · Trust but Verify

五步，把不確定性變成可管理

01

信任但要驗證

別跟模型對抗，不要硬把它塞進「第一步做這、第二步做那」的單一流程。

02

保留語意

一切都是 context，不再有處處適用的嚴格資料結構。

03

為復原而設計

模型與 Agent 都不完美，長時間執行更會出現怪事，要預先設計回復機制。

04

用評測，不要只用斷言

Agent 不是 100% 可靠，要找出「要成功幾次才交付給使用者」的合理平衡。

05

為丟棄而打造

bitter lesson：軟體是可拋棄的，同樣的東西未來會用更好的模型一再重建。

NICS國家資通安全研究院

公開文件

延伸應用

把這套觀念，接到治理語彙

治理目標	對應演講做法
可驗證 · 可追溯 · 人類監督	用評測而非斷言、追蹤中間步驟、信任但驗證。
降低風險 · 強化韌性	為復原而設計、把錯誤當輸入——將不確定性視為要被管理的風險，而非要被消滅的缺陷。
提高可維運性	為丟棄而打造、提供為 Agent 而生的介面，讓系統能隨模型迭代持續重建。

NICS國家資通安全研究院

公開文件

結語

別再跟模型對抗；
設計能容納不確定性的系統。

這就是大家正在學的 bitter lesson——軟體是可拋棄的，會用更好的模型、更好的 Agent 一再重建。

資料來源：YouTube 原片（AI Engineer）· philschmid.de 原文（含程式碼）

為什麼（資深）工程師難以打造 AI Agent

四個層次，讀懂這場演講

核心論點

核心比喻

五個根本轉變

五條收斂原則

過去的工程在「消除模糊」Agent 要你「管理不確定性」

你的角色：從交通管制員，變成調度員

從「一次寫對」到「反覆迭代到可靠」

五個根本轉變

傳統工程 vs Agent 工程，一眼看完

文字，就是新的「狀態」

狀態 = 資料結構

狀態 = 文字與情境

交出控制權

寫死的分支流程

信任模型臨場判斷

錯誤，只是另一種輸入

失敗就整個重跑

把錯誤回饋給模型

從單元測試，走向評測（Evals）

做對幾次？

誰來評？

看過程，算結果

Agent 會演進，API 不會

介面「不言自明」

為 Agent 而生的工具

五條收斂原則

五步，把不確定性變成可管理

信任但要驗證

保留語意

為復原而設計

用評測，不要只用斷言

為丟棄而打造

把這套觀念，接到治理語彙

別再跟模型對抗；設計能容納不確定性的系統。

為什麼（資深）工程師
難以打造 AI Agent

過去的工程在「消除模糊」
Agent 要你「管理不確定性」

別再跟模型對抗；
設計能容納不確定性的系統。