1. 首页>>分享

微软OmniParser V2.0发布:AI智能体操控计算机,提升交互元素识别准确率

IT Home在2月17日报告说,Microsoft OmniparSer是一种AI工具,可根据纯视觉分析和识别屏幕上的交互式图标。以前,它与GPT-4V配对以显着增强识别能力。

2月12日,微软在其官方网站上发布了最新版本的OmniparSer v2.0,该网站可以将OpenAI(4O/O1/O3-MINI),DeepSeek(R1),Qwen(2.5VL)和人类(SONNET)转换为模型例如可以控制计算机的AI代理。

微软640xl秒变安卓__手机秒变电脑桌面下载

与V1版本相比,OmniParser V2使用较大的量表交互式元素检测数据和图标功能标题数据进行训练,具有更高的准确性,更快的推理速度和降低延迟时,当检测较小的交互式UI元素时。 60%。

在ScreenSpot Pro中,V2+GPT-4O的精度达到39.6%,而GPT-4O的原始精度仅为0.8%。

手机秒变电脑桌面下载_微软640xl秒变安卓_

为了更快地使用不同的代理设置,Microsoft还打开了Omnitool的来源,Omnitool是一种基于Docker的Windows系统,该系统集成了代理要求的一系列基本工具,涵盖了诸如屏幕理解,定位,操作计划和执行等功能。它也是将大型型号变成代理商的关键工具。

IT Home配备了开源地址:

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/274290.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息