阿里云通义千问 Qwen 2.5-Max 大模型在 Chatbot Arena 盲测中超越 DeepSeek-V3 等模型-模具钢网

2月5日，在1月29日新年之际，阿里巴巴云宣布了新的Tongyi Qianwen Qwen 2.5-Max Ultrage Scale Scale Scale Moe模型，声称在多个基准测试和土地竞争者中超过了DeepSeek V3。

阿里巴巴云今天宣布，QWEN2.5-MAX超过了DeepSeek-V3，在聊天机器人体育馆大型模型盲测试中打开AI O1-Mini和Claude-3.5-Sonnet，在世界上以1332分排名第七，这也是不合理的中国中国人类别中的模型冠军。

_阿里建模平台_阿里巴巴模型

同时，QWEN2.5-MAX在数学和编程等单项功能中排名第一，在硬提示中排名第二。

阿里建模平台__阿里巴巴模型

IT Home搜索了公共信息，并了解到Chatbot Arena是由LMSYS ORG启动的大型模型性能测试平台，该平台目前集成了190多个型号。

该列表使用匿名方法成对组合大型模型，然后将它们交给用户进行盲目测试。用户根据真正的对话经验对模型功能进行投票。因此，Chatbot Arena LLM排行榜已成为行业中认可的最公平和权威的清单之一，也是世界上最重要的大型车型最重要的舞台。

_阿里建模平台_阿里巴巴模型

阿里巴巴云说，在主流基准测试中，例如Arena-Hard，LiveBench，LiveCodeBench，GPQA-Diamond和Mmlu-Pro，QWEN2.5-MAX可与Claude-3.5-Max相提几乎全部。和Llama-3.1-405b。

阿里巴巴模型__阿里建模平台

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/273913.html

阿里云通义千问 Qwen 2.5-Max 大模型在 Chatbot Arena 盲测中超越 DeepSeek-V3 等模型