Google DeepMind · Philipp Schmid · 10 分 39 秒演講的完整重點還原
本場地圖
從「消除模糊的確定性」走向「管理不確定的機率性」。
你的角色:從交通管制員,變成調度員。
傳統工程習慣與 Agent 工程的五處正面衝突(含一覽矩陣)。
把上述轉變收斂成可操作的設計準則。
傳統軟體是確定性的:輸入 A + 程式碼 B = 永遠得到 C。Agent 是機率性的——你無法用程式碼把變異「寫掉」。
核心比喻
傳統軟體 · Traffic Controller
你規定每一步:固定路線、固定號誌。怎麼走,全由你決定。
AI Agent · Dispatcher
你只給目標(「從德國到倫敦」)。搭火車、飛、開車——路徑由 Agent 自己選。
開發流程的轉變
每一個,都是傳統工程習慣與 Agent 工程的正面衝突。先看一覽,再逐一展開。
五轉變一覽
| 轉變 | 傳統工程 | Agent 工程 |
|---|---|---|
| ① 文字即狀態 | 布林/旗標/資料結構 | 語意文字與情境 |
| ② 交出控制權 | 寫死的分支流程 | 信任模型臨場判斷 |
| ③ 錯誤即輸入 | 失敗就整個重跑 | 回饋模型、繼續前進 |
| ④ 測試→評測 | 斷言「同入同出」 | 量「做對幾次」+ LLM 評審 |
| ⑤ API/工具 | 介面對人不言自明 | 為 Agent 自我說明 |
轉變 01 / 05
傳統做法
一切對應到布林值、旗標、欄位,可被精確檢查;無法承載語意。
Agent 做法
LLM 直接理解語意;狀態是自由文字(也可能是圖片、影音),不再是乾淨的結構化資料。
深度研究 Agent 回傳計畫時,你能「核准的同時補方向」——聚焦美國、排除加州;不必走「否決 → 再追問 → 重做計畫」。個人化也一樣:平常用攝氏,但煮飯想用華氏,這種動態偏好無法只靠一個旗標表達。
轉變 02 / 05
傳統做法
分類模型判斷意圖,再觸發預先定義的工作流;無法臨場、動態地反應。
Agent 做法
Agent 理解話語含義,當場提出方案;不再處於純粹確定性的環境。
退訂情境:傳統做法先分類「使用者想退訂」,再走「挽留 / 取消」的固定流程。但使用者可能在對話中改變心意,變成全新的意圖——這些有狀態的分支幾乎無法事先全部建模。解法是把控制權交給 LLM。
轉變 03 / 05
傳統做法
過去 HTTP 請求便宜,搜尋失敗就重來一次、重做全部工作,沒問題。
Agent 做法
一次跑 5–15 分鐘,中途失敗若打掉重練=浪費算力、還丟失既有情境。
類比 Go:函式回傳「值或錯誤」,兩者同等對待。Agent 也該如此——把錯誤當成正常輸入餵回模型,加上額外檢查與替代方案,讓流程「繼續往前」,而不是從頭開始。
轉變 04 / 05
傳統測試假設「同一輸入 → 永遠同一輸出」;Agent 是非確定性的,斷言式測試失效。我們改問「做對幾次」。
可靠度
測重複成功率(Pass^k),而非「有沒有成功一次」。十次只成功一次的客服 Agent,太不穩、不能上線。
品質
結果是主觀的(研究報告 vs. 客訴回覆)。用 LLM as a Judge 或人類專家做質性評估。
追蹤
要追蹤中間步驟,但成敗以「最終產出」衡量。多花幾步、多耗 token 都行,結果對就算成功。
轉變 05 / 05
傳統做法
deleteItem(id) 對你很清楚,因為你有多年累積的隱性脈絡。
Agent 做法
Agent 看不到原始碼,只看得到 schema、docstring、工具定義——要自我說明、語意化。
一個帶 ID 的 delete item 端點,對開發者不需要 docstring;但 Agent 第一眼看不出它會做什麼、失敗會怎樣。要把參數意義與失敗行為寫清楚,別假設使用者具備多年開發者的隱性知識。也要懂得:何時該用固定 workflow、何時才該用 Agent。
把五個轉變,收斂成可以帶回團隊的設計準則。
收斂原則 · Trust but Verify
別跟模型對抗,不要硬把它塞進「第一步做這、第二步做那」的單一流程。
一切都是 context,不再有處處適用的嚴格資料結構。
模型與 Agent 都不完美,長時間執行更會出現怪事,要預先設計回復機制。
Agent 不是 100% 可靠,要找出「要成功幾次才交付給使用者」的合理平衡。
bitter lesson:軟體是可拋棄的,同樣的東西未來會用更好的模型一再重建。
延伸應用
| 治理目標 | 對應演講做法 |
|---|---|
| 可驗證 · 可追溯 · 人類監督 | 用評測而非斷言、追蹤中間步驟、信任但驗證。 |
| 降低風險 · 強化韌性 | 為復原而設計、把錯誤當輸入——將不確定性視為要被管理的風險,而非要被消滅的缺陷。 |
| 提高可維運性 | 為丟棄而打造、提供為 Agent 而生的介面,讓系統能隨模型迭代持續重建。 |
這就是大家正在學的 bitter lesson——軟體是可拋棄的,會用更好的模型、更好的 Agent 一再重建。
資料來源:YouTube 原片(AI Engineer)· philschmid.de 原文(含程式碼)