Skip to content

【个体】将聊天内容快速整理、创作

快速勾选发送所有对话, 将内容直接发送到邮箱

在邮箱接收后,将内容复制交给AI创作员工

文章示例

当AI遇上RPA:理想与现实的距离

昨天和来自小鹏、网易系的一位朋友(以下简称方),以下简称聊起最近大火的「AI自动化」话题。 他发来一个B站链接,说现在AI已经能直接做RPA了,表情是两个晕头的emoji。 这场对话从一个视频开始,最后聊到了AI与RPA的真正落地,也聊到了开发者的无奈与现实。

从「视觉驱动」到「大模型驱动」

我回他说,其实这条路我们几年前就看到苗头了。 早期有团队训练视觉模型来识别界面元素、模拟人工操作; 后来有了接入大模型理解的 Browser Use; 再到现在,浏览器厂商直接下场提供 MCP(Model Context Protocol),让AI能在原生浏览器中执行操作。 AI真的越来越靠近RPA了——能看懂页面、理解任务、自己点点点。 问题是:能看懂 ≠ 能做好。

Token的代价:AI执行不是免费的

方说得很实在: “token消耗非常快,而且不精准。” “花了时间长,对开发来说结论是——不能提效。” 这句话可以说是一针见血。 RPA的任务本质是重复、可预测的,而大模型的推理每次都在「重新理解」和「重新生成」。 于是每一次操作都意味着新的计算、消耗新的token。 换句话说——让AI来执行重复劳动,成本反而更高。

AI的真正价值:增强RPA,而不是替代它

我回应他:“其实对RPA的影响是正面的。” AI的价值不是取代RPA,而是增强RPA

  1. 提高流程可维护性。 过去RPA一旦UI改版、元素变动就全崩。现在AI能「看懂」变化,从而自动适配。
  2. 加速流程构建。 录像 + 大模型解析,自动生成流程脚本,大大缩短研发周期。 但在执行层面——尤其前端操作场景——AI的「看不准」问题依然存在。 “哪怕给了DOM结构,人都不一定知道哪个icon代表什么。” 这点上,AI还没超越人类直觉。

开发者的现实:被“强制AI”

“我们公司现在强制推AI开发,必须用AI工具。” 方笑说,“只是强制用,会记录使用数量,算绩效。” 他举了个例子: “有时候几分钟能写完的需求,因为要用AI,反而做十几分钟。” 我回他:“那你其实可以写个RPA agent,自动循环对话cursor、自动消耗token,这样就完美‘达标’了。” 他笑疯了:“真离谱哈哈。” 这其实是今天很多团队的缩影—— AI被当作绩效指标,而不是生产力工具。 于是AI成了负担,不是帮手。

落地的尽头:RPA依然是终点

方最后说:“我们试了各种方向,ui比对、bug查找、自动测试、ui生成代码……最后发现,都是RPA。” 是的。 绕了一圈,AI再智能,也得落地到一个确定的执行机制。 自动化的尽头,依然是RPA。 AI只是让RPA更聪明、更易用。

写在最后

那天的对话让我想起一句话: “AI能替代的不是人,而是重复。” AI可以帮我们加速、生成、思考、适配,但不能完全代替确定性的执行逻辑。 RPA让流程稳定可控,AI让它更灵活。 两者结合,才是「自动化」的真正未来。 只不过——在未来来临之前,我们还得继续「手动」写下那一行行代码。

平常心 / 2025.11.06 「自动化的尽头,不是AI,而是理解力与执行力的平衡。」

AI全场景落地, 致力于AI+自动化, 实现协同办公、全自动办公的新愿景