又谈AI智能体,认真读完此文,你对软件型RPA就会有非常深刻的全新理解!
AI 语言大模型Deep seek和AI智能体Manus被热炒,人们期望多模态 LLM 进化可以颠覆性变革人机交互方式,Deep seek作为一款成功的LLM,可以取代传统的复杂软件交互入口,使用NLP技术让人们可以自然语言与机器交互,而Manus这种智能体相当为Deep seek这个AI大脑安装了手脚,可以替代人类工作。
通俗地讲,这种大模型光有聊天功能可不行呀,教大家写个文案、画个PPT、写个诗也不太够,更况大部分AI大模型目前还存在AI幻觉问题。毕竟,大家都是要工作的,要干活,要赚钱,要养家,要还房贷车贷的,总不能整天跟AI唠嗑,于是人们希望有代替干活的Agent出现,目前流行的“AI数字人”、“电子秘书”、“AI助手”都可以理解是Agent的不同程度应用。
AI 智能体(智能体英文为Agent)目前被公认为2025年乃至未来3-5年确定性最高的、最具商业价值和未来想象力的技术。划重点,正因为Agent被最确定且最具商业价值的技术,所以才会被热捧!毕竟,任何新技术如果最终不能商业化,AI也不例外,不能商用的人工智能最后终会沦落为人工智障,热潮过后,逐步走向消亡!
一.操作系统厂家的智能体规划
先看看几大操作系统级厂家的Agent。
谷歌公司 的Astra:谷歌推出 Astra, Astra 可识别桌上摆放的音 箱,能根据用户指向,对应解释音箱上的高频扬声器的功能;能读懂电脑屏幕上的算法代码,识别著名建筑并推理出其位置等,Astra 已经进化出多模态能力,同时谷 歌团队推出 AI用来理解用户界面的视觉语言模型。
苹果IOS的Apple :iOS 系统用 Apple 重做系统,Siri 成为人机交互的入口,Apple 的推出,将 AI 内置于操作系统层面,而 Siri 作为语音交互助手,具备屏幕感知能力、跨应用操作能力、行为智能体能力。
微软的:微软利用实现 Agent 构想, 系统界面里任何东西都可以拖向 窗口里,与 LLM 交互。
华为的 :华为开发者大会(HDC 2024)在广东东莞召开,华为宣布其鸿蒙NEXT首次将AI能力融入系统,带来AIGC图像生成、AIGC声音修复、AI图像识别等体验。
为什么要提操作系统呢?因为应用软件是基于操作系统这种系统软件的,下面要讲到智能体的具体实现涉及RPA屏幕操作,显然操作系统厂家对屏幕元素的识别和控制应该会更精准高效。
几年前,推出语言大模型和视觉大模型Soar的著名AI公司曾将AI应用划为5大等级,其中属于Level 3。
国内近期也出台关于智能体的L0-L5级的智能体标准。
二.智能体分类
何谓智能体?简单理解,AI Agent是一种可以自主执行任务、做出决策,并与环境互动的智能系统。
智能体分类五花八门,主要分类包括:
(一)基于应用分类的Agent:
(1) :行动智能体,功能单一,可以完成特定的工作,如:天气查询、智能助手
(2) :模拟智能体,可以用于角色扮演,理解不同角色的目标与功能,如:生成式智能体
(3) :自主智能体,可以独立执行,是一个长远的目标
这个是来自国外的智能体分类!
(二)按功能划分的Agent:
服务型智能体:
o典型代表:银行客服机器人、酒店入住引导AI智能体
o核心能力:信息检索和流程引导
o适用场景:标准化服务场景,如中国移动10086智能客服
目前服务机器人看起来还是比较呆萌,任何事情发展都有一个过程。
·决策型智能体:
o典型代表:自动驾驶系统、股票交易算法
o核心能力:实时数据分析和动态决策
o关键指标:决策准确率与响应速度
·创造型智能体:
o典型代表:、
o突破性进展:2023年AI绘画作品首次通过图灵测试
o创意边界:从文案生成到3D建模
(三)按AI进化模式区分的智能体
(四)按自主性划分的智能体:
·规则驱动型智能体:
o运作原理:if-else决策树
o优势:结果绝对可控
o局限:需预设所有可能场景
·AI驱动型智能体:
o核心技术:深度学习和强化学习
o惊人进化: Zero从零开始21天达到人类顶尖水平
o风险控制:道德约束算法的必要性
(六)基于软硬件角度的Agent分类
从IT软硬件角度区分的Agent,IT认识比较喜欢这个分类方法。
(1)软件Agent:从RPA、IPA到Agent,RPA和Agent软件功能融合,利用算法在代码构成的虚拟世界实现人类的工作。
(2)硬件Agent:如自动驾驶设备
(3)软硬件一体Agent:具象智能体,最典型的就是人型机器人,现在已有未来学家预测将来可能突破奇点,象科幻片描述,机器人进化为硅基生命,进而发过来奴役人类这种碳基生命。那时候,看到这篇文章的人都已经不在,路易老兄曾说“我死之后哪管洪水滔天”,所有不用太过杞人忧天。
特别地提下软件Agent,企业数字化讲究一切业务数字化,即全部业务都有应用软件系统支撑,Agent的2B应用先重点用软件Agent解决!
AI三大学派及其融合过程
多年前,就究竟应该怎样让机器来模仿人类的智能,由此诞生了人工智能的三大学派:符号主义、连接主义和行为主义。
(1)符号主义:
专家系统曾经作为符号主义学派中的门面,很快大家发现也就那么回事之后,其风头已日渐式微,只能在一些特定领域发光发热。
符号主义的技术演进始于1956年达特茅斯会议提出”物理符号系统假说”,早期以和Simon的逻辑理论家(1956)实现自动定理证明为标志,1970年代专家系统(如MYCIN医疗诊断、化学分析)将领域知识编码为规则库达到应用高峰,1984年Cyc项目尝试构建人类常识知识库却暴露知识工程瓶颈,21世纪后与连接主义融合催生神经符号系统(如知识图谱支撑的BERT模型,就好比少林拳和武当腿融合)
符号主义的优劣势:
优势
劣势
逻辑透明可解释
擅长演绎推理
符合人类思维习惯
依赖人工构建知识库
难以处理模糊信息
学习能力弱
(2)连接主义
早在80年代非线性激活函数和BP反向传播算法带来了重大突破,连接主义相当于打通了神经网络的“任督二脉”,可惜那时互联网尚未普及,由于缺乏大数据,联结主义的爆发尚欠东风。
连接主义的技术演进始于1943年-Pitts神经元的理论奠基,1958年提出感知机实现单层网络雏形,1986年反向传播算法突破多层网络训练瓶颈,2012年团队凭在竞赛中引爆深度学习革命,2017年架构革新自然语言处理范式,最终催生出GPT、BERT等千亿参数大模型,贯穿始终的仿生学思想与算力、数据的指数级增长共同推动了人工神经网络从理论构想迈向产业级应用的跨越。
连接主义的优劣势:
优势
劣势
数字神经网络模仿人脑造人工神经网络;
擅长从数据中自我学习
黑箱问题,决策过程不可解释;
数据与算力依赖,伦理风险(比如深度技术伪造 )
(3)行为主义:
行为主义的典型理论基础是《控制论》,主张通过环境交互产生智能行为,遵循”感知-动作”循环,核心方法论为强化学习( )。
如果说基于逻辑的符号主义有些“头脑发达、四肢简单”,那么只重行为的机器人就是“四肢发达、头脑简单”。
于是有人在想,为什么不把符号主义和行为主义的优点结合起来呢?
这两者的结合其实就是我们今天所说的智能体(Agent)概念,当时就引发了一阵Agent研究的热潮,而今天AI无论从包括GPU等各类AI芯片和相关硬件,还是各种AI算法,都具备实现Agent的基本条件,因此2025年Agent再次被热炒!
AI新时代的三大主义的合体必杀技:
符号主义
连接主义
行为主义
理论基础
数理逻辑
神经科学
控制论
知识来源
专家经验
大数据
环境交互
典型输出
规则决策树
特征向量
动作序列
可解释性
自动驾驶= 神经网络(连接)+ 交通规则(符号)+ 实际路测(行为)
医疗机器人= 知识图谱(符号)+ 影像识别(连接)+ 手术模拟训练(行为)
教育机器人=知识图谱(符号)+ 数字人
为什么提下Al三大主义?因为如果企业管理软件从设计之初就启动类符号标识的软件屏幕界面和控件元素标识出,直捣黄龙,哪还需要浪费算力或Token去识别屏幕元素!当然,这前期工作量大!我一直在讲国内山寨国际巨头产品只学到皮毛!抄抄数据库表和界面,基本上未学到精髓,”要抄并超”,这才是正确道路!
三.智能体的2B企业应用
大模型的出现为AI Agent创造了有利条件,自从全球范围内开始卷大模型后,资本转向炒作智能体。
基于大模型的智能体最大的潜力在于有可能在页面交互方面带来革命性的变化,有了智能体之后,页面的交互过程可以大为精准,通过大模型的支持,智能体能理解用户的意图,自动完成复杂的操作,用户再也不用像以前那样点来点去,另外,大模型支持多模态输入,因此用户可以通过更自然的方式与页面进行交互,例如语音、手势或图像,而不仅仅是传统的点击和输入。
手势点击+手写输入和声音输入,吩咐机器自动完成工作
想象一下,企业用户可以通过语音命令电脑快速完成表单填写,或者通过手势控制页面的滚动和导航。这些创新将使页面交互更加直观和高效,从而提升整体的用户体验满意度和系统的可用性。这大饼是不是闻着很香?
说到Agent在2B的应用,就要谈下RPA,多年前,RPA亦被猛炒,可惜种种原因很快就偃旗息鼓,其中重要之一就是屏幕元素拾取不大准确,尤其是复杂用户界面。
字节TARS Agent
近期IT巨头字节跳动开源,TARS不仅能看懂网页内容自动执行任务,而且支持命令行敲代码、管理文件系统和自动生成优化程序代码。
有兴趣的可以去项目官网下载:
仓库:
想象一下,实现所说即所得的自动化操作!前景多么诱人!AI的成功还在AI之外前提是管理软件本身的底座要扎实!现实是Agent企业应用并没有想象中的那么简单!
字节TARS智能体中有个功能是”调用lPA执行”,lPA前身正是RPA(可以认为lPA=RPA+Al)
一.RPA和BPA(BPM)
先熟悉两个名词:RPA和BPA
(RPA): 是一种自动化技术,通过软件机器人或“机器人工作流”执行重复性、规律性的办公室任务,模拟人类在计算机系统中的操作。
RPA可以在不改变现有系统的情况下,通过模仿用户界面上的操作,自动处理数据输入、交互和业务流程。这项技术广泛应用于财务、人力资源、客户服务和其他业务领域,帮助企业提高工作效率、降低成本,减少错误,并释放员工从繁琐任务中解放出更多时间用于战略性工作。
记住RPA自动实现用户操作的两大特点:一是不改变现有系统逻辑;二是模拟用户界面操作。但是录屏有这么简单吗?大系统有的屏幕也是相当复杂的,更何况还需智能辨识出屏幕元素!RPA+AI=IPA+LLM->进化为Agent!原来玩RPA的公司要实现到Agent的进化,可以采用套壳的方式,多套几个,壳套多了,也是本事!
业务流程自动化 (BPA):BPA最初作为业务流程管理 (BPM)的一部分,BPM负责整个业务管理,而BPA 专注于通过接管重复性任务来提高生产力,可以将BPA看成是BPM中可以重复流程 + RPA的新产物,因此有人建议将BPA独立于BPM外。
Sap的RPA和Agent策略
SAP是全球最大企业管理和协同商务解决方案供应商(也就是Sap提供一揽子2B解决方案,包括MDM、SCM、CRM、BI、Agent该有不该有的产品都能提供,而且是面向全球),世界500强企业,欧洲市值最高的公司。
SAP发布的RPA工具包括:
.SAP Cloud :可以用于实现企业工作流程的低代码自动化;
.Sap Ruum:针对没有编码技能的企业用户的SAP Ruum,以实现部门流程自动化
.iRPA: SAP (iRPA) , SAP早在2018年发布了其智能RPA工具的1.0版,并于当年11月收购了一家法国RPA软件供应商公司, iRPA是在收购了欧洲市场上 RPA 的翘楚 ,没有直接把 推向市场,基于 SAP自身 的质量和标准,对其进行了重写和重构,结合 SAP 的产品、解决方案、行业经验,形成了 iRPA,iRPA基于API和元数据实现机器人自动操作,从根源上避免了产品界面更改之后造成原有流程脚本不工作的可能性。
323AI导航网发布