我让 AI 操作网页之后,开始不想点按钮了

作者:糟糕好吃日期:2026/3/19

每天在后台系统填表单、在电商网站筛商品、在管理后台点来点去……如果有一天,你只需要说一句话,AI 就能替你干完这些活,你会不会觉得:我的双手终于可以解放了?

说实话,我第一次看到阿里开源的 PageAgent 时,脑子里蹦出的就是上面那句话。这是一个能听懂人话、然后直接帮你操作网页的小工具——**不需要写脚本,不需要装插件(甚至可以用书签),只需要一行代码,或者一句话

它让我突然意识到:我们和网页的交互方式,可能正在迎来一次真正的变革。


一、体验下三个让你“哇塞”的场景

场景一:后台系统创建用户(打工人狂喜)

想象你在一个管理后台,每天要创建几十个新用户。以前:点“新增”→填姓名、邮箱、角色→点“保存”,重复几十遍。现在:直接说

“创建一个用户,姓名张五,邮箱 zhangwu@example.com,其他随便。”

PageAgent 会自动找到“创建用户”按钮、弹出表单、填好信息、点击提交。你只需要看着它做完,然后喝口水。

output6.gif

场景二:在京东找一本书(购物不用动手)

你突然想买一本 AI 相关的书,预算有限。打开京东首页,输入关键词,筛选自营,再设价格区间……这一套流程少说也得一两分钟。用 PageAgent 呢?说一句话:

“京东上找一本 AI Agent 的书,50 元以内,要自营。”

然后它就自己干了,最后把链接或商品信息给你。你甚至可以在它执行的时候去倒杯水。

output7.gif

最终结果:

image.png

场景三:给自己的网页加个 AI 助手(开发者福音)

如果你是个前端开发者,想给自己的表单页面加点“智能”,只需要在 HTML 里加一行代码:

1<!DOCTYPE html>
2
3<html lang="zh-CN">
4<head>
5  <meta charset="UTF-8" />
6  <title>Page Agent Demo(免费版)</title>
7</head>
8<body>
9  <h2 id="title">Page-Agent 测试</h2>
10
11  <form id="form">
12    <input placeholder="请输入用户名" name="username" /><br />
13    <input placeholder="请输入年龄" name="age" /><br />
14    <button type="submit">提交按钮</button>
15  </form>
16
17  <!-- 接入 CDN -->
18  <script src="https://cdn.jsdelivr.net/npm/page-agent@1.5.11/dist/iife/page-agent.demo.js"></script>
19
20 <script>
21    const form = document.getElementById('form');
22    const title = document.getElementById('title');
23
24    form.addEventListener('submit', (e) => {
25        e.preventDefault(); // 👈 关键:阻止页面刷新
26        // 直接修改标题
27        title.innerText = '表单提交成功 ✅';
28    });
29  </script>
30
31</body>
32</html>
33
34

然后你的用户就可以说“帮我填用户名和年龄,然后提交”,剩下的 PageAgent 全包了。**一行代码,让任何网页瞬间拥有 AI 操作能力。

任务描述:

输入用户名为李四,年龄16,然后点击提交

output5.gif


二、PageAgent 是怎么做到的?

如果你以为它是靠“截图 + 多模态模型”实现的,那就猜错了。那种方式成本高、速度慢,而且截图稍微模糊一点就认错。

PageAgent 走了一条更“工程”的路:**它直接解析网页的 DOM 结构,把页面里的按钮、输入框、链接等交互元素提取出来,压缩成一段结构化文本,然后让大模型理解。大模型不需要“看”页面长什么样,只需要知道“当前页面上有什么可以点的、可以填的”,就能决定下一步操作。

整个过程是一个循环:****观察(解析 DOM)→ 思考(大模型决策)→ 执行(模拟点击/输入)→ 再观察……****直到任务完成。

好处也很明显:

  • 速度快,因为不用传截图;
  • 成本低,因为对模型能力要求不高;
  • 更稳定,因为操作的是真实 DOM 元素,不是像素。

三、未来:网页还会存在吗?前端还写代码吗?

如果你回看历史,会发现每一次交互方式的变迁,本质上都是****让人更懒、更爽**的过程。

1. 命令行界面(CLI)—— 只有极客才玩得转

想操作电脑?先背几十条指令吧。ls -lcd ..grep……每一个字符都不能错,否则机器就不理你。这是 **人迁就机器 的时代,效率虽高,但门槛高得吓人。

2. 图形用户界面(GUI)—— 普通人的春天

苹果和微软把电脑变成了“所见即所得”。你不再需要记指令,用鼠标点图标、拖窗口就行。这是 **机器开始迁就人 的第一步,但交互依然是固定的:按钮只能点,输入框只能填,菜单只能选。

3. 触控 + 语音 —— 更自然的“对话”

iPhone 的多点触控,让“滑动”“捏合”变成直觉;Siri、小爱同学,让你动嘴就能放歌、设闹钟。交互变得更像“对话”,但依然依赖明确的触发词或手势,**机器并不真正理解你的意图

你看,前三次变革,都是****人在适应工具**,只是工具变得越来越好用而已。

4. 第四次变革:让 AI 替你“操作”网页

当 AI 能直接替我们操作网页,我们还需要“操作”网页吗?这个问题可能会让一些前端同学焦虑——如果用户都不需要点击了,那界面还重要吗?

我的看法是:**界面依然重要,但它的角色会变。以前界面是“操作入口”,未来界面是“意图表达层”——我们需要设计出让 AI 更容易理解的语义化结构,让 AI 知道哪里是按钮、哪里是输入框、它们的用途是什么。就像 HTML5 增加了 <article><nav> 等语义标签一样,未来可能会有更多“面向 AI”的设计规范。

同时,隐私和安全也会成为新话题:你愿意让 AI 替你操作银行网站吗?它怎么确保不误点转账按钮?这些问题现在还没有标准答案,但一定会有新的解决方案出现。


四、最后,你也可以试试

PageAgent 的接入方式简单得不像真的:

  • **书签模式:复制一段代码保存为书签,在任何页面点击就能唤起。
  • **浏览器插件:去 Chrome 商店安装,跨页面操作更方便。
  • **SDK 集成:开发者往自己项目里加一行 script 标签就行。

项目地址在这里:alibaba/page-agent

我已经在自己的后台管理系统里试过了,让 AI 替我建了十几个测试账号,体验真的……有点上瘾。


我让 AI 操作网页之后,开始不想点按钮了》 是转载文章,点击查看原文


相关推荐


【OpenClaw养虾】从零开始部署安装,接入QQ机器人
卷福同学2026/3/11

从零开始的养虾记 1.OpenClaw是什么 OpenClaw最近非常的火,友友们可以在各种地方刷到它,但是还是有很多人不知道这是个什么东西,能做啥 简单总结,它真正解决了一个问题:让AI从”能聊天“变成”能干活“ 2.OpenClaw能做啥 OpenClaw是一个开源的AI Agent框架,让AI拥有了手和脚,能自动执行任务、调用浏览器、操作工具等等。 以运营自媒体账号为例,用OpenClaw搭建自动化系统,AI可完成的工作: 自动选题 自动写作 自动配图 自动发文,一键发布到公众号、小


我把大脑开源给了AI
风象南2026/3/3

前段时间遇到个很烦人的问题:随着用 AI 的频率越来越高,我发现自己每天都在做重复的“填表”工作。 代码在 GitHub,笔记在语雀,灵感在手机微信备忘录。每次开一个新的 AI 对话框,我都要不厌其烦地重新给它喂背景信息:“我是谁”、“我的项目规范是什么”、信息需要从各个系统同步到AI,效率极低。 为了解决这个问题,我干脆把这些散落的东西整合了起来,建了一个纯文本的本地知识库——我叫它 AIStudio。 一开始只是想弄个集中的仓库,方便AI找到它需要的东西,但用着用着,这套架构演变成了一个我和


LeetCode 762.二进制表示中质数个计算置位:位运算(mask O(1)判断)
Tisfy2026/2/22

【LetMeFly】762.二进制表示中质数个计算置位:位运算(mask O(1)判断) 力扣题目链接:https://leetcode.cn/problems/prime-number-of-set-bits-in-binary-representation/ 给你两个整数 left 和 right ,在闭区间 [left, right] 范围内,统计并返回 计算置位位数为质数 的整数个数。 计算置位位数 就是二进制表示中 1 的个数。 例如, 21 的二进制表示 10101 有 3


Flutter 正在计划提供 Packaged AI Assets 的支持,让你的包/插件可以更好被 AI 理解和选择
恋猫de小郭2026/2/14

如何让开源项目能够持续获得资金支持,2025 - 2026 的答案肯定是紧跟 AI 。 2025 年 Dart/Flutter MCP 和 Flutter GenUI 的出现,无疑让 Flutter 在 AI 上刷新了存在感,特别是谷歌核心项目 NotebookLM 在 Flutter 上的成功,也让 Flutter 在 AI 应用场景证明了可行性,这从第三方 appfigures 提供的数据也可以有明显体现: 数据是 appfigures 分析数百万个 iOS 和 Android 应用和游


JavaScript的数据类型 —— Boolean类型
橘朵2026/2/6

Boolean(布尔值)类型有两个字面值:true和false。 这两个布尔值不同于数值,因此 true 不等于 1,false 不等于 0。 虽然布尔值只有两个,但所有其他类型的值都有相应布尔值的等价形式,可以调用特定的Boolean() 转型函数: let message = "Hello world!"; let messageAsBoolean = Boolean(message); Boolean()转型函数可以在任意类型的数据上调用,而且始终返回一个布尔值。 下面是不同类型与布尔


中文分词与文本分析实战指南
艾光远2026/1/27

1. 引言:中文分词的重要性与挑战 中文作为一门独特的语言,其词语之间没有像英文那样的空格分隔,这使得中文文本处理面临着特殊的挑战。分词是中文自然语言处理(NLP)的基础环节,直接影响后续的文本分析、情感分析、信息检索等任务的质量。 jieba作为Python中最受欢迎的中文分词工具之一,以其高效、准确和易用性赢得了广泛认可。它不仅支持多种分词模式,还提供了丰富的扩展功能,如词性标注、关键词提取等,成为了中文NLP领域的必备工具。 2. 环境准备与基础配置 2.1. 导入必要模块 在开


2026前端面试题及答案
阿芯爱编程2026/1/18

2026前端面试题及答案 HTML/CSS 部分 1. 什么是盒模型?标准盒模型和IE盒模型的区别是什么? 答案: 盒模型是CSS中用于布局的基本概念,每个元素都被表示为一个矩形盒子,由内容(content)、内边距(padding)、边框(border)和外边距(margin)组成。 区别: 标准盒模型(W3C盒子模型):width和height只包含内容(content) IE盒模型(怪异模式盒子模型):width和height包含内容(content)、内边距(padding)和边框(b


后端线上发布计划模板
uzong2026/1/10

敬畏每一行代码,敬畏每一次变更。 本模板旨在通过结构化、可验证、可回溯的方式,降低发布风险,保障系统稳定。 一、📅 发布基本信息 项目内容发布名称示例:用户中心 v2.3.0 上线发布时间2026-01-15 01:00 – 02:30发布负责人xxx协同人员xxx发布类型✅ 功能上线 / 🔁 配置变更 / 🐞 紧急修复 / ⚙️ 架构调整是否灰度发布是 / 否(若“是”,说明策略:如 5% → 20% → 100%) 二、


权限与访问控制
weixin79893765432...2026/1/2

目录 一、概念二、权限与访问控制的「能力全景图」三、前端视角的「权限控制分层模型」(核心)1、登录态层(Authentication State)2、路由层(Page Access Control)3、菜单层(Navigation Control)4、组件 / 操作层(Action Control) 四、前端权限系统的“典型数据流”五、权限模型的三种常见设计(前端必须懂)1、RBAC(基于角色)2、PBAC(基于权限点)3、ABAC(基于属性/规则) 六、重点「权限与访问控制」业务剖析


智谱年末王炸:GLM-4.7开源,这可能是给程序员最好的圣诞礼物
墨风如雪2025/12/23

2025年的年底,本以为AI圈的大战会随着节日季的到来暂时偃旗息鼓,没想到智谱AI在这个节点扔下了一枚重磅炸弹。 就在12月23日,他们正式发布并开源了GLM-4.7。这不仅仅是一次常规的版本号迭代,更像是一次针对开发者痛点的精准爆破。如果你还在为开源模型写不出能跑的代码而头疼,或者还在心疼闭源API高昂的账单,那么GLM-4.7可能正是你在等的那个破局者。 这不是参数堆砌,是实打实的“智力”升级 先说最直观的感受。过去我们用开源模型写代码,往往是“一看顿悟,一跑报错”。但这次GLM-4.7在

首页编辑器站点地图

本站内容在 CC BY-SA 4.0 协议下发布

Copyright © 2026 XYZ博客