1. 首页>>分享

去年底称今年是Agent元年,Agent浏览器爆火受投资人关注

去年年底接受采访时 合伙人Konstantine Buhler称 今年会成为Agent元年

原因在于 Agent 获取信息的方式有了巨大变化。其工作流也有了巨大变化。它们如今不仅能够同时打开多个网页。还能从网络中获取信息并思考内容。而且还能调用多个工具来完成任务。

Agent能力发生变化。这带来了新的机会。今年以来。Agent浏览器开始流行。Browser Use、Fellou、Dia等Agent浏览器产品在海内外逐渐火爆。

所谓Agnet专用浏览器,就如同是一群AI在你的电脑上集体工作。并且它们被收纳于一个浏览器的空间之中。还不会占用界面以及资源。

这个新兴赛道,正在受到投资人关注。

Browserbase创立仅一年时间。它已成功融资达千万美金。其估值高达上亿美金。因Manus而迅速走红的Browser Use。近期也获得了千万美金的种子轮融资。

产品形态处于非常早期阶段。这些公司对Agent浏览器的理解存在极大差异。今日。乌鸦君带你瞧瞧由Agent催生的新赛道。

01 为什么Agent需要一个浏览器?

今年3月 Manus出现 它是个能像人类般熟练操作浏览器的智能体 瞬间点燃了行业热情

但也催生了很多基础设施的变化,比如浏览器。

简单来说 浏览器使用者正逐渐从人类用户转向AI Agent 传统浏览器产品多基于人类用户操作习惯设计 无法满足AI Agent自动化抓取需求 无法满足AI Agent交互需求 无法满足AI Agent实时数据处理需求

在Browserbase创始人早期的备忘录当中 曾经详细讲述了传统浏览器在AI时代存在的不足之处

普通浏览器抓取数据存在困难。这种浏览器的网站动态加载复杂。其网站交互也复杂。部分网页设有反爬虫机制。并且网页结构多变。解析数据不容易。

无界面浏览器页面加载速度迟缓,Agent抓取时容易出现差错。该浏览器原本用于网页处理、爬虫以及自动化测试等方面。在无界面模式里,页面元素加载时间久,元素尚未完全加载完成,便有可能被Agent自动化抓取或者交互,进而导致出错

在这样的情形下 “Agent专用浏览器”的相关讨论 渐渐进入众人的视线范围

今年以来 越来越多人工智能公司 开始推出智能体浏览器产品 例如今年2月 Perplexity首席执行官阿拉文德宣布 公司将推出自身的浏览器

在Aravind看来 浏览器是构建Agents的唯一方式 因为目前没有其他办法 能让AI代理同时控制多个应用 尤其是在iOS上 甚至无法访问其他应用 这是苹果生态的限制 而浏览器是非常好的解决方案

并且在商业化上取得了突破

亿元美金估值俱乐部__融资估值和公司估值科

其中,Browserbase是较早开展Agent浏览器研发的公司,其成立仅一年时间。4月22日,Browserbase完成新一轮B轮融资,此次融资由Notable Capital牵头投资。

“投资实习所”透露 该公司此轮投后估值达3亿美金 在此之前 该公司已完成3轮融资 总融资额为2750万美元

今年,Browser Use获得1700万美元融资,由Felicis Ventures领投,A Capital、Nexus Ventures、Y Combinator、Paul Graham、Liquid2、SV Angel、Pioneer Fund等跟投。

人工智能领域的明星公司The Browser Company曾推出Arc浏览器。今年该公司又推出了自己的Agent浏览器Dia

4月21日 云服务商Authing创始人谢扬公布Agent浏览器Fellou 据介绍 Fellou是全球首个行动型浏览器 也就是Agentic Browser 可以理解为一群AI在你电脑上干活 它们能隐身于影子空间 不影响你操作

那么这些各家在设计产品时,思路上各有什么不同?

02 选AI-native,还是易用性?

以下是市面上几家Agent浏览器的产品形态和各自特点:

Browserbase:自带视觉模型的理解系统,功能丰富

Browserbase没有图形化界面。它直接在内存中完成所有操作。这些操作包括点击链接、抓取网页内容等。它无需关心服务器的管理和维护。另一方面。它能利用大模型和视觉语言模型。它能理解网页语义。它能自适应页面变化。从而实现自然语言交互

它降低了Agent开发的门槛。它能帮助绕过反爬虫措施。它可管理和协调多账号操作。它能够提供一个稳定的执行环境。这个执行环境不易因网络问题中断。特别是在处理那些缺乏现代API的传统网页时它发挥着重要作用。它还允许会话回放。它能逐页回放浏览器会话。以此来检查操作和网络请求。

浏览器使用:将网页拆分为“结构化文本”以使AI理解

Browser Use创始人Magnus Müller觉得,当下多数AI代理依靠基于计算机视觉的办法来“观察”与浏览网页。此方法存在速度慢的问题。还存在成本高的问题。并且存在效果不稳定的问题。

他解释说 许多代理依靠视觉系统 试图借助屏幕截图理解网站 但这种方式常出问题 我们把网站转化为代理能理解的结构化内容 这意味着我们能以更低成本重复执行相同任务

使AI能更便捷地浏览网站,这是Browser Use产品的核心逻辑。具体而言,Browser Use会将网站里的按钮以及元素,拆解成一种更易于理解、更类似“文本”的格式,供Agent使用。如此一来,能助力Agent弄明白网页具备哪些选项,运行多个AI代理,进而自主作出决策。

具体来说,Agent可以用Browser Use做这些:

兼容GPT-4、Claude、Llama等;

支持异步编程。能让AI代理执行网络请求。能让AI代理执行浏览器操作。且这种执行是非阻塞的。

支持多标签页管理、视觉识别、内容提取;

能记录和重复执行特定动作;

支持开发者自定义动作,如保存文件、推送到数据库等。

Dia:超级搜索框,Agent处理精细度高

Dia看上去极为简约 仅有搜索框 然而AI对搜索内容的分析精细度出色 Agent融入能力也突出

其产品逻辑是以AI作为核心构建理念。打造一个由AI驱动的浏览环境。让AI深度融入浏览器各个环节。使其成为浏览器底层的能力。最主要的两个方面:

一是围绕AI构建交互模式。Dia借助智能输入建议,于用户输入时提供续写功能。还提供扩写功能。也提供总结功能。用户能在地址栏输入自然语言命令。借此指示浏览器执行查找文档任务。还能指示浏览器发送邮件。也能指示浏览器从网页提取数据填入文档。

二是有着类似操作系统的定位。创始人Josh Miller野心勃勃。他想让浏览器不再只是单纯的内容展示工具。而是成为像操作系统那样的存在。使产品能够管理个人偏好与行为。在系统层面达成跨设备的AI体验。

举例来说,Dia产品是基于Chromium引擎的特定版本。输入问题后,会出现Google/Chat选项。Chat能够调用自带的大模型给出答案,并且有历史聊天记录。遇到复杂问题时,它会联网搜索。在交互设计方面,划词后右侧能直接提供查找或解释功能。它支持通过“@”调用各个网页标签。

_融资估值和公司估值科_亿元美金估值俱乐部

Dia浏览器邀请码在二手市场最高被卖到888元

Fellou:交付结果PPT化,帮助用户高效吸收

Fellou定位于“浏览器型的AI助手”,其重点是交付任务结果。和多数以对话为主的Agnet浏览器不一样,Fellou实现了交付结果的可视化。这种PPT形式或者图化的知识呈现,对用户而言非常高效。

具体而言 它把浏览器整合起来 它把Agent整合起来 它把工作流自动化整合起来 最终整合成了“行动型浏览器(Agentic Browser)”

用户仅需一句话。Fellou便能自动解析指令。还能智能拆解任务。并跨多个网页与系统调度操作。涵盖数据采集、表单填写直至最终报告生成。例如。用户在Threads上发布的内容。要求Fellou抓取后于Twitter上发布。且要依照内容本身的threads形式发布多条动态

Fellou增添了对本地电脑的控制功能。其行动空间更为广阔。通常Agent浏览器与微信、钉钉等生态不兼容。然而Fellou具备开箱即用的特性。像manus、OpenAI的Agent,仅能在公开网站运行。访问领英等网站时会因虚拟机受限。但本地运行的Fellou不存在此类问题

03 总结

浏览器是大模型当前能调用的极为重要的工具之一。在Agent落地方面,浏览器具备相当重要的场景价值。这正是OpenAI有意收购Chrome的缘由。

然而 作为一种新兴的产品形态 Agent浏览器的发展尚处早期 未来的Agent浏览器形态 答案究竟在谁手中 让我们共同期待

本文源自微信公众号“乌鸦智能说” 作者是智能乌鸦 36氪获授权后予以发布

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/275735.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息