智能体浏览器入门

Agentic浏览器正在改变Web应用。了解它们与Selenium的区别、语义化HTML的重要性，以及开发者需要应对的安全风险。

May 24, 2026 · 2 min read

如果你一直在开发 Web 应用时假定浏览器另一端始终是人类用户，那么这一前提正在开始瓦解。

智能体浏览器（Agentic Browsers）代表了软件与 Web 交互方式的一次重大转变。它们不是简单地在侧边栏挂载一个 AI 聊天机器人，而是能够读取页面上下文、规划多步骤任务并自主执行的浏览器——它们可以浏览网站、填写表单、管理标签页、完成工作流，而无需等待用户逐步点击。

以下是前端开发者需要了解的关于这一变革的内容。

核心要点

与 AI 辅助浏览器或固定的自动化脚本不同，智能体浏览器能够理解用户目标并自主执行多步骤任务。
Perplexity、Opera 和 OpenAI 等主要厂商正在推出 AI 浏览器产品，而 Google DeepMind 的 Project Mariner 推动了智能体浏览走向主流。
语义化 HTML、描述性标签、可预测的流程以及稳定的标识符，能让你的应用更易于智能体解析，同时也更易于用户访问。
提示词注入（Prompt injection）和意外自动化是前端开发者需要在设计中加以考量的新风险。

什么是智能体浏览器？

智能体浏览器能够理解目标并采取行动。用户可能会说：“找到下周五飞往柏林的最便宜航班并预订它”——浏览器会处理剩下的事情：打开网站、比较选项、填写乘客信息并提交付款。

这与 AI 辅助浏览器不同——后者由 AI 总结页面或回答问题，但用户仍需手动驱动工作流。它也不同于 Selenium 或 Puppeteer 等基础浏览器自动化工具——这些工具遵循固定脚本。而智能体浏览器尝试动态适应。它们会响应实时页面状态、从某些 UI 变化中恢复，并在多个页面和会话之间保持上下文。

其底层架构通常将用于意图理解和规划的大语言模型，与浏览器自动化以及页面上下文访问相结合。浏览器读取页面结构、识别可交互元素并采取行动——所有这些都在同一会话上下文中完成。

2025–2026 年涌现的案例

多款 AI 驱动的 Web 浏览器已处于活跃开发或早期发布阶段：

Perplexity Comet 用智能体驱动的结果和任务执行取代了传统搜索
Opera Neon 在创意和生产力任务上尝试本地 AI 智能体
Dia 聚焦于以记忆驱动的浏览体验
ChatGPT Atlas 将 agent 模式引入一个专属浏览器，而 Google DeepMind 的 Project Mariner 则在这些理念融入更新的 Google AI 产品之前，探索了类似的浏览器-智能体能力

它们是早期的商业产品和实验，而非遥远的原型。这反映了主要 AI 玩家对浏览器所有权认知的真正转变——它意味着对用户工作流的控制，而不仅仅是搜索流量。

前端开发者为何应当关注

当浏览器智能体与你的应用交互时，它不会像人类那样浏览页面。它以编程方式读取 DOM、解读标签和角色，并基于在页面结构中发现的内容做出决策。

这使得以下几点比以往任何时候都更加重要：

语义化 HTML — 智能体依赖正确的元素角色（<button>、<nav>、<form>）来理解它们所看到的内容
描述性标签 — 未标注的输入框或仅有图标的按钮，智能体难以准确解读
可预测的导航流程 — 状态处理不一致的多步骤表单或结账流程，可能导致智能体失败或重复步骤
稳定的元素标识符 — 在不同渲染之间发生变化的动态生成 class 名称或 ID，会让稳定可靠的交互变得困难

简而言之，那些能提升屏幕阅读器无障碍体验的实践，同样能让你的应用对浏览器智能体更具可导航性。这些不再是相互独立的问题。

值得了解的安全考量

智能体浏览器引入了与传统浏览不同的风险特征。由于它们以用户身份自主行动，一个小错误可能在被察觉之前已经在多个步骤间扩散。

有两类风险对开发者尤为突出：

提示词注入（Prompt injection） — 嵌入在网页中的恶意内容可能重定向智能体的行为。这是当前 AI 辅助浏览中最大的未解决安全问题之一。如果你的应用渲染用户生成的内容，攻击者可能构造指令来劫持智能体接下来的行为。

意外自动化 — 智能体可能触发破坏性或不可逆的操作（删除记录、提交订单），而无需人类用户本会自然停下来确认的步骤。当智能体参与其中时，清晰且明确的确认 UI 变得更加重要。

这些并不是回避构建智能体浏览器兼容应用的理由，而是促使你认真思考界面如何处理自动化交互的理由。

这一切将走向何方

浏览器正日益成为一个执行层，而不仅仅是一个显示界面。自主浏览正在从实验性走向主流，而那些为之精心构建的应用——语义结构清晰、标签明确、导航可预测——将占据优势。

结论

对前端开发者而言，实际的启示很直接：编写整洁、可访问、结构良好的界面。智能体浏览器奖励的，正是那些早已让 Web 对人类更友好的基本原则——语义化标记、可预测的流程以及清晰的确认模式。同时为两类受众构建并不是额外的工作；它就是同一份工作，只是做得更好。无论是人类还是智能体，都将从中受益。

常见问题

智能体浏览器与 Selenium 或 Puppeteer 等传统浏览器自动化工具有何区别？

Selenium 和 Puppeteer 遵循固定的、预先编写的脚本，当 UI 发生变化时会失效。智能体浏览器使用语言模型来理解目标、适应实时页面状态，并从意外的布局中恢复。它们基于在 DOM 中观察到的内容实时做出决策，而不是重放录制好的步骤。

我需要添加特殊的标记或 API 来支持智能体浏览器吗？

并不需要。智能体读取的 DOM 与用户看到的相同，因此语义化 HTML、ARIA 角色、可访问的标签和稳定的选择器通常已经足够。那些支持屏幕阅读器和无障碍审计的实践，也能让你的应用对智能体更可靠。现阶段不需要任何专有标签或厂商特定 API。

如何保护我的应用免受通过智能体浏览器实施的提示词注入攻击？

当用户生成的内容可能被智能体读取时，应将其视为不可信内容。对输入进行清洗、对渲染文本进行转义，避免在可操作控件附近嵌入类似指令的语句。对于敏感流程，要求智能体无法静默绕过的明确确认步骤，例如在不可逆操作前进行重新认证或提供人类可读的摘要。

智能体浏览器会取代传统用户界面吗？

短期内不太可能。大多数用户仍然希望通过可视化界面进行浏览、比较和探索。智能体最适合用于预订、下单或数据收集等重复性或目标驱动的任务。可以预期一个人与智能体共享同一界面的混合未来——这让可访问、结构良好的前端变得更有价值，而不是相反。

Open-source session replay

Gain control over your UX

See how users are using your site as if you were sitting next to them, learn and iterate faster with OpenReplay — the open-source session replay tool for developers. Self-host it in minutes, and have complete control over your customer data.

Star on GitHub12k