每次不知道吃什么的时候,我都会羡慕古代的豪门。你不用自己考虑,比你自己更了解你的管家会安排得一清二楚。如今,随着人工智能的发展,这样的场景正在成为现实。
业内普遍认为2025年将是Agent爆发之年。 Gartner最近将Agent AI列为2025年十大技术趋势之一,并预测到2028年至少15%的日常工作决策将由Agent AI自主完成。
与 GenAI(生成人工智能)不同,代理是目标驱动的,可以完全执行工作流程、适应、学习、迭代、与其他系统和人类协作,并完成端到端的任务。在智普CEO张鹏看来,Agent可以视为大规模通用操作系统LLM-OS的雏形。
此前,10月,智普推出了自主代理——AutoGLM。 AutoGLM不仅可以模拟用户的屏幕操作,例如点击移动应用程序,还可以有效辅助用户浏览网页,涵盖社交网络、网上购物、地图导航、火车等日常生活所需的广泛领域。订票。
今天,在最新的“Agent OpenDay”活动中,智浦展示了AutoGLM的多项进展,展示了大模型技术如何将“对话”从简单的交互升级为高度自主的操作系统:能够自主完成50多个步骤复杂的操作,并且可以跨应用程序协同执行任务;支持数十个网站的“无人驾驶”;此外,基于视觉多模态模型的GLM-PC也已进入内部测试阶段,致力于探索像人类一样控制计算机的通用智能体技术。
在Agent OpenDay上,智浦CEO张鹏现场要求AutoGLM通过语音指令建群,向现场数百位嘉宾发送了总计2万元的微信红包,并演示了手机远程命令电脑自动发送文件。
AutoGLM全新升级:更复杂的挑战
会上,智普重点展示了其最新升级的AutoGLM,它可以自主执行复杂、多步骤的任务,处理跨应用程序的需求,甚至可以自动操作多个平台,整个过程无需人工干预。
AutoGLM可以高效完成超长任务链。例如,在采购火锅食材的场景中,AutoGLM无需人工干预即可执行54步任务,速度超过人工操作;支持跨应用程序任务执行,用户只需发出简短指令,系统即可在多个应用程序之间自动调度并完成任务;它简化了操作过程。用户可以通过简单的语音命令启动复杂的操作。例如,只需“点咖啡”,即可自动完成从选择咖啡到购买咖啡的整个流程。
为了提升个性化体验,AutoGLM还推出了“休闲模式”,通过分析用户偏好和历史行为,主动为用户做出决策,进一步优化用户体验。
同时,智浦宣布AutoGLM已启动大规模内测,将尽快作为面向C端用户的产品推出; “10亿APP免费自动升级”计划也已启动;支持核心场景和核心应用的AutoGLM标准产品API将于两周内在智普MAAS开放平台上线试用。
此外,智浦青眼插件还上线了AutoGLM功能,支持搜索、微博、知乎、Github等数十个网站的“无人驾驶”。
智浦清研插件推出AutoGLM功能|图片来源:智浦
GLM-PC:“无人驾驶”计算机的技术探索
除了手机和浏览器之外,智普还带来了一款基于PC的自主Agent——GLM-PC。这是智普在“无人驾驶”PC领域的技术探索,基于其多模态模型CogAgent开发。
GLM-PC现已开始第一阶段内测,提供多项核心功能,包括帮助用户预约和参加会议、自动发送会议摘要等;支持文档处理,如下载、发送、理解、总结文档; (如微信公众号、知乎、小红书等)进行关键词搜索并完成摘要;具有远程、定时操作功能,支持远程指挥和执行计算机任务,或按设定时间自动完成任务;此外,GLM-PC还引入了“隐形屏幕”模式,用户可以在工作时独立完成任务,释放屏幕空间。
GLM-PC的设计理念是模拟人类使用计算机的方式——用眼睛观察屏幕,在脑海中规划,然后通过手动操作执行指令。
通过这种设计,GLM-PC能够完成复杂的PC任务,甚至可以自主学习和执行所有为人类设计的应用程序,展现出强大的跨平台能力。这是一种系统级、跨平台的能力,不依赖HTML或API,能力上限较高。
然而,当智能代理执行复杂的业务流程时,它们通常需要调动大量的数据和应用程序。但由于很多网站和APP的API缺乏统一标准,企业在集成智能代理时会面临一些挑战。
对于这一点,AutoGLM技术总监刘晓指出,AutoGLM通过图形用户交互界面而不是依赖传统的API调用来解决这个问题。
与传统的API集成容易因应用程序更新而失败不同,AutoGLM模拟了人类的操作方法。只要应用程序界面保持易于理解和易于使用,代理就可以成功地在界面上执行任务,从而避免由于API标准化不足而带来的问题。来提问吧。
由于PC任务的复杂性,目前GLM-PC仍然需要用户输入精确的指令,距离完全替代人工办公还有一定的差距。不过,随着技术的不断进步,GLM-PC的能力将会进一步增强,未来有望为用户提供更加高效、直观的PC操作体验。
大模型应用新阶段:从聊天到行动
对于最近热议的缩放法则是否正在放缓,张鹏认为缩放法则的放缓只是表面现象,背后可能还有更深层次的原因。
他指出,虽然在语言处理领域可能已经逼近人类认知的极限,但通过大量数据和大规模处理,仍有可能突破这一瓶颈。在多模态应用、智能代理等领域,Scaling还有很大的探索空间。
在张鹏看来,计算量和有效信息可能是关键因素,预训练阶段的放缓并不意味着整体进度停滞。事实上,缩放效应在训练后阶段仍然存在,尽管这种效应不再像训练前阶段那样简单地依赖于数据量和参数量的增加,而是更加复杂和精密。
这一突破是当前AI技术发展的核心之一——如何将大型模型从简单的“理解”层面升级为“行动”能力。大型模型的价值不应该仅仅作为聊天机器人而存在。它的真正价值在于其强大的“理解”和“预测”能力。
这种能力使得大型模型能够深入分析和理解人类复杂的语义、情感和抽象概念,然后进行准确的推理和预测。如何将这些强大的能力从简单的文本交互中解放出来,应用到更广泛、更实际的场景中,需要从现在的“Chat”转向“Act”。
Act,即行动,代表着大模型技术从理解、预测到实际行动的跨越。这不仅意味着模型可以根据输入信息做出响应,还意味着它可以在更复杂的动态环境中做出决策、解决问题,甚至创造新的价值。
在张鹏看来,“现阶段,AutoGLM相当于在人与应用之间增加了一个执行调度层,极大地改变了人机交互的形式。更重要的是,我们看到了LLM-OS的可能性,基于大数据模型智能能力(从L1到L4及以上),未来将有机会实现原生人机交互,将人机交互范式带入新阶段。”
AutoGLM和GLM-PC是智普在AI智能操作系统方面的重要尝试。它们的出现源于智谱在大语言模型、多模态模型、逻辑推理和工具使用方面的技术积累。
从2023年4月的AgentBench开始到8月的CogAgent模型,智普已经开发AutoGLM和GLM-PC模型CogAgent一年半了。
与OpenAI不同,智普定义了大模型开发的五个阶段:L1语言能力、L2逻辑能力(多模态能力)、L3工具使用能力、L4自学习能力、L5科学规律探索能力。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/272805.html