1. 首页>>分享

阿里云通义千问 Qwen 2.5-Max 大模型在 Chatbot Arena 盲测中超越 DeepSeek-V3 等模型

2月5日,在1月29日新年之际,阿里巴巴云宣布了新的Tongyi Qianwen Qwen 2.5-Max Ultrage Scale Scale Scale Moe模型,声称在多个基准测试和土地竞争者中超过了DeepSeek V3。

阿里巴巴云今天宣布,QWEN2.5-MAX超过了DeepSeek-V3,在聊天机器人体育馆大型模型盲测试中打开AI O1-Mini和Claude-3.5-Sonnet,在世界上以1332分排名第七,这也是不合理的中国中国人类别中的模型冠军。

_阿里建模平台_阿里巴巴模型

同时,QWEN2.5-MAX在数学和编程等单项功能中排名第一,在硬提示中排名第二。

阿里建模平台__阿里巴巴模型

IT Home搜索了公共信息,并了解到Chatbot Arena是由LMSYS ORG启动的大型模型性能测试平台,该平台目前集成了190多个型号。

该列表使用匿名方法成对组合大型模型,然后将它们交给用户进行盲目测试。用户根据真正的对话经验对模型功能进行投票。因此,Chatbot Arena LLM排行榜已成为行业中认可的最公平和权威的清单之一,也是世界上最重要的大型车型最重要的舞台。

_阿里建模平台_阿里巴巴模型

阿里巴巴云说,在主流基准测试中,例如Arena-Hard,LiveBench,LiveCodeBench,GPQA-Diamond和Mmlu-Pro,QWEN2.5-MAX可与Claude-3.5-Max相提几乎全部。和Llama-3.1-405b。

阿里巴巴模型__阿里建模平台

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273913.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息