raw/articles/webmcp-agent-web-control.txt
webmcp-agent-web-control.txt
# Mobile Capture 20260510T131118+0000-local-38869135ccf6
Captured: 2026-05-10T13:11:18+00:00
Source: local
From: macbook
Original files:
- Recordings-10--1-.txt
## Content
# Recordings-10--1-.txt
Recordings
Google 真要統治世界!當網頁主動獻身給 Agent 時 - WebMCP 來了
就在幾天前,Google 和微軟聯合推出了 WebMCP 標準。正當大家看著新聞想:「哦,這不過就是在 Web 上跑的 MCP 啊」,但 Google 的這一招,實質上已將全世界網頁的控制權,正式從人類手上交給了 Agent。從此以後,全球資料交換的主角將不再是人類,而是 Agent。
套一句阿扁的名言:「有這麼嚴重嗎?」事情可能比你我想的都還要嚴重。
網頁的誕生,最初是為了讓人類能查看不在自己電腦上的資料。這項發明發展了 40 年,已經成為一個極度成熟的產業。將資料呈現在使用者端瀏覽器的技術,甚至比後端還要精彩。當大家覺得 HTML 已經夠棒時,又來了 CSS,接著是 JavaScript,然後衍生出一大串繁複的前端技術。
這些技術的根本目的只為了一件事:服務人類的視網膜。
從最簡單的文字到圖片、影片,甚至是 VR 的 3D 世界,一切都是為了將資料「呈現」給人看。這些像素構成的排列組合建立了你我的世界。你每天滑的 YouTube、IG、FB、TikTok,或是蝦皮、交友網站、PornHub、Booking.com 等等,構築了我們求職、購物、交友、工作、旅遊、理財的生活圈。少了這些,幾乎沒有人能在現代社會存活。
但當 Agent 成為主要的資料查看者時,怎麼辦?
在使用 Claude Code 等工具時,我們要裝的第一個東西就是 Browser Use,後來更出現了許多控制瀏覽器的元件,主要目的就是幫我們「自動化」。這些自動化工具幫我們搜尋頁面、點擊滑鼠、填寫文字。但要做到這些事並不容易,目前主流的方法有兩種:
- DOM Guessing: 根據 HTML 的 DOM 結構來盲猜並查詢元件。
- 螢幕截圖 (Screen Scraping): 使用多模態的 LLM,透過暴力看圖來找出要操作的元件。
通常 DOM Guessing 只能靠猜,無法擷取太複雜或不守規矩的網頁;螢幕截圖則是目前最通用的辦法,就算是桌面版的 Peekaboo 也是用這招。但用截圖的致命傷就是又慢、又貴、又不準確。換句話說,現代的網頁根本就不是針對 Agent 設計的。
這時,就是 WebMCP 上場的時候了。
藉由讓 HTML/JS 網頁在載入時插入工具,讀取網頁的 Agent 可以立即查看這個網頁中提供的「工具名稱 (Tool Name)」以及「工具說明 (Tool Description)」。Agent 能瞬間理解這個網頁的整體架構與能力,此時完全不需要猜測或截圖,只要使用 Web 提供的 MCP 工具,就能明確知道操作這個網頁的 JSON 格式。
- Declarative API (宣告式 API): 直接放在 HTML 標籤中即可,適合表單等標準操作。
- Imperative API (命令式 API): 透過可執行的 JavaScript Callback 來處理更複雜的動態互動。
有了這些 API,Agent 就知道要執行哪些工具及程式。這樣一來,靜態與動態的頁面馬上就化身為 Agent-Centric(以代理為中心) 的架構了!
有了支援 WebMCP 的網頁,你還需要有支援 WebMCP 的瀏覽器。猜猜看會是哪個瀏覽器搶得先機?當然是 Chrome。最新版的 Chrome(146 Canary 版)已經率先支援 WebMCP。接下來,就是各大巨頭的 Agent 上場了。目前所有主流 Agent 都支援以 JSON 為主的 Tool Use,理所當然也能完美接軌 WebMCP。
根據技術實測與報導,使用 WebMCP 相比於傳統截圖,可以省下 89% 的 Token 消耗,平均減少 67% 的算力負擔,並且將操作準確度提升至高達 98%。
這能做什麼呢?
什麼都能做。從前你要撰寫網頁應用程式時,你想的是怎麼設計一個漂亮的前端把使用者黏住,讓他們在網頁上逛來逛去,進而達成消費或點擊。但在 Agent 時代,你的網頁必須是 Agent-Friendly 的。如何快速讓 Agent 找到它要的資料,才是你的重點。
以購物網站為例,如果 Agent 在 Timeout 之前還沒摸清你的網站結構、找不到資料,它直接就去下一個網站了。未來的網站開發者要做的不再是 SEO(搜尋引擎最佳化),而是 AEO(Agent Engine Optimization,AI 代理最佳化)。
不支援 WebMCP 的網頁,未來恐怕將直接被判死刑,被排除在整個 Google 與 AI 代理的體系之外!想想誰能承受這個後果?如果全世界超過 70% 的 Chrome 使用者都習慣了 WebMCP,並且放心地將自己的操作交給 Agent,我們就會走向 無頭 (Headless) 的時代。當網頁符合 WebMCP 的標準時,Agent 就不需要再開啟網頁慢慢截圖,只要直接讀取 HTML/JS,就可以幫你秒殺完成所有操作了。
非常可怕的東西。本來以為 UCP 等協定只是想把電商平台的流量弄過來,現在 Google 推 WebMCP,等同直接宣告全世界的網頁將被 Agent 接管。Google 這招其實對自己的殺傷力也非常大,因為如果 WebMCP 成為標準,人類不再親自開啟瀏覽器看網頁,到時候 Google 賴以維生的廣告業務將可能會直接歸零。
每天都有新趨勢,每天世界都在變。Google 靠著強大的生態系不斷改變全世界人的生活習慣,這次甚至不惜「自毀前程」來推動變革,這就是 Agent 帶來的巨大影響力。當 OpenAI 還在想著怎麼在 ChatGPT 上打廣告時,Google 已經默默改變了整個遊戲規則。現在 AI 不斷加速進化,真不知道明天世界又會變成什麼樣子,唉!