NICS國家資通安全研究院
公開文件
演講導讀 · AI ENGINEER · 2026

為什麼(資深)工程師
難以打造 AI Agent

Google DeepMind · Philipp Schmid · 10 分 39 秒演講的完整重點還原

NICS國家資通安全研究院
公開文件

本場地圖

四個層次,讀懂這場演講

01

核心論點

從「消除模糊的確定性」走向「管理不確定的機率性」。

02

核心比喻

你的角色:從交通管制員,變成調度員。

03

五個根本轉變

傳統工程習慣與 Agent 工程的五處正面衝突(含一覽矩陣)。

04

五條收斂原則

把上述轉變收斂成可操作的設計準則。

NICS國家資通安全研究院
公開文件
核心論點

過去的工程在「消除模糊」
Agent 要你「管理不確定性

傳統軟體是確定性的:輸入 A + 程式碼 B = 永遠得到 C。Agent 是機率性的——你無法用程式碼把變異「寫掉」。

NICS國家資通安全研究院
公開文件

核心比喻

你的角色:從交通管制員,變成調度員

傳統軟體 · Traffic Controller

起點 目標

你規定每一步:固定路線、固定號誌。怎麼走,全由你決定。

AI Agent · Dispatcher

給目標 達成

你只給目標(「從德國到倫敦」)。搭火車、飛、開車——路徑由 Agent 自己選。

NICS國家資通安全研究院
公開文件

開發流程的轉變

從「一次寫對」到「反覆迭代到可靠

傳統軟體 · 線性、一次交付 規格/PRD 寫程式 寫測試 部署 上線使用 打造 Agent · 迴圈、持續調校 定義指令 執行 觀察行為 調整工具/Prompt 迭代回饋:觀察 → 調整 → 再執行
NICS國家資通安全研究院
公開文件
05

五個根本轉變

每一個,都是傳統工程習慣與 Agent 工程的正面衝突。先看一覽,再逐一展開。

NICS國家資通安全研究院
公開文件

五轉變一覽

傳統工程 vs Agent 工程,一眼看完

轉變傳統工程Agent 工程
① 文字即狀態布林/旗標/資料結構語意文字與情境
② 交出控制權寫死的分支流程信任模型臨場判斷
③ 錯誤即輸入失敗就整個重跑回饋模型、繼續前進
④ 測試→評測斷言「同入同出」量「做對幾次」+ LLM 評審
⑤ API/工具介面對人不言自明為 Agent 自我說明
NICS國家資通安全研究院
公開文件

轉變 01 / 05

文字,就是新的「狀態

傳統做法

狀態 = 資料結構

一切對應到布林值、旗標、欄位,可被精確檢查;無法承載語意。

Agent 做法

狀態 = 文字與情境

LLM 直接理解語意;狀態是自由文字(也可能是圖片、影音),不再是乾淨的結構化資料。

影片例子

深度研究 Agent 回傳計畫時,你能「核准的同時補方向」——聚焦美國、排除加州;不必走「否決 → 再追問 → 重做計畫」。個人化也一樣:平常用攝氏,但煮飯想用華氏,這種動態偏好無法只靠一個旗標表達。

NICS國家資通安全研究院
公開文件

轉變 02 / 05

交出控制權

傳統做法

寫死的分支流程

分類模型判斷意圖,再觸發預先定義的工作流;無法臨場、動態地反應。

Agent 做法

信任模型臨場判斷

Agent 理解話語含義,當場提出方案;不再處於純粹確定性的環境。

影片例子

退訂情境:傳統做法先分類「使用者想退訂」,再走「挽留 / 取消」的固定流程。但使用者可能在對話中改變心意,變成全新的意圖——這些有狀態的分支幾乎無法事先全部建模。解法是把控制權交給 LLM。

NICS國家資通安全研究院
公開文件

轉變 03 / 05

錯誤,只是另一種輸入

傳統做法

失敗就整個重跑

過去 HTTP 請求便宜,搜尋失敗就重來一次、重做全部工作,沒問題。

Agent 做法

把錯誤回饋給模型

一次跑 5–15 分鐘,中途失敗若打掉重練=浪費算力、還丟失既有情境。

影片例子

類比 Go:函式回傳「值或錯誤」,兩者同等對待。Agent 也該如此——把錯誤當成正常輸入餵回模型,加上額外檢查與替代方案,讓流程「繼續往前」,而不是從頭開始。

NICS國家資通安全研究院
公開文件

轉變 04 / 05

從單元測試,走向評測(Evals)

傳統測試假設「同一輸入 → 永遠同一輸出」;Agent 是非確定性的,斷言式測試失效。我們改問「做對幾次」。

可靠度

做對幾次?

測重複成功率(Pass^k),而非「有沒有成功一次」。十次只成功一次的客服 Agent,太不穩、不能上線。

品質

誰來評?

結果是主觀的(研究報告 vs. 客訴回覆)。用 LLM as a Judge 或人類專家做質性評估。

追蹤

看過程,算結果

要追蹤中間步驟,但成敗以「最終產出」衡量。多花幾步、多耗 token 都行,結果對就算成功。

NICS國家資通安全研究院
公開文件

轉變 05 / 05

Agent 會演進,API 不會

傳統做法

介面「不言自明」

deleteItem(id) 對你很清楚,因為你有多年累積的隱性脈絡。

Agent 做法

為 Agent 而生的工具

Agent 看不到原始碼,只看得到 schema、docstring、工具定義——要自我說明、語意化。

影片例子

一個帶 ID 的 delete item 端點,對開發者不需要 docstring;但 Agent 第一眼看不出它會做什麼、失敗會怎樣。要把參數意義與失敗行為寫清楚,別假設使用者具備多年開發者的隱性知識。也要懂得:何時該用固定 workflow、何時才該用 Agent。

NICS國家資通安全研究院
公開文件
演講結論

五條收斂原則

把五個轉變,收斂成可以帶回團隊的設計準則。

NICS國家資通安全研究院
公開文件

收斂原則 · Trust but Verify

五步,把不確定性變成可管理

01

信任但要驗證

別跟模型對抗,不要硬把它塞進「第一步做這、第二步做那」的單一流程。

02

保留語意

一切都是 context,不再有處處適用的嚴格資料結構。

03

為復原而設計

模型與 Agent 都不完美,長時間執行更會出現怪事,要預先設計回復機制。

04

用評測,不要只用斷言

Agent 不是 100% 可靠,要找出「要成功幾次才交付給使用者」的合理平衡。

05

為丟棄而打造

bitter lesson:軟體是可拋棄的,同樣的東西未來會用更好的模型一再重建。

NICS國家資通安全研究院
公開文件

延伸應用

把這套觀念,接到治理語彙

治理目標對應演講做法
可驗證 · 可追溯 · 人類監督用評測而非斷言、追蹤中間步驟、信任但驗證。
降低風險 · 強化韌性為復原而設計、把錯誤當輸入——將不確定性視為要被管理的風險,而非要被消滅的缺陷。
提高可維運性為丟棄而打造、提供為 Agent 而生的介面,讓系統能隨模型迭代持續重建。
NICS國家資通安全研究院
公開文件
結語

別再跟模型對抗;
設計能容納不確定性的系統。

這就是大家正在學的 bitter lesson——軟體是可拋棄的,會用更好的模型、更好的 Agent 一再重建。

資料來源:YouTube 原片(AI Engineer)· philschmid.de 原文(含程式碼)

1 / 16
← / → · 滑動 · 按 N 顯示講者備註