1. 首页>>分享

商汤科技日日新SenseNova多模态大模型在OpenCompass评测中夺冠,领先GPT-4o和Claude 3.5

刚刚,商汤科技全新SenseNova多模态大模型在权威综合评测平台OpenCompass的多模态评测排行榜上名列第一。

美国紫罗兰挑战权威__挑战国家权威

OpenCompass多模态大模型评估排名

商汤科技的平均分达到了77.4,领先GPT-4o、Claude 3.5 Sonnet以及国内所有不同规模的开源和闭源模型。尤其是在涵盖算术、统计、代数、几何、数值知识、科学和逻辑的权威数据集MathVista维度上,取得了78.4分的最高分,展现了其领先的“数理”能力。

美国紫罗兰挑战权威_挑战国家权威_

OpenCompass 多模态基准包含八个核心数据集,可从多个角度客观地量化大型多模态模型的功能。在本次评测中,商汤科技几乎所有维度都达到或超过了GPT-4o水平,在四个维度(MMStar、MathVista、OCRBench、MMVet)均排名全球第一。

OpenCompass大模型开放评估系统由上海人工智能实验室推出。拥有完整开源、可复现的评测框架,定期发布各类大型模型的评测结果和排名。该系统涵盖了语言与理解、常识与逻辑推理、数学计算与应用、多编程语言编码能力、代理、创造与对话等多个方面,是对人的真实能力各个维度的全面诊断。大型模型。

商汤科技多模态推进

作为计算机视觉领域的先行者和领先公司,商汤科技早在几年前就确定了多模态大模型的研究方向,并在研发过程中融合了积累的领先算法、丰富的数据和场景认可,建立核心优势。

2023年4月,商汤科技率先发布业界领先的多模态大模型;

2024年2月,基于商汤4.0的多模态大模型在当时权威评测基准测试集MME Benchmark上排名第一,综合得分2199.5(超过GPT-4V的1926.57),并应用于智能驾驶、智能汽车机舱、电力行业等场景;

美国紫罗兰挑战权威__挑战国家权威

2024年7月,商汤发布国内首款在交互体验上对标GPT-4o的大型模型——日日信5o,实现实时流媒体交互,无延迟。

深度跨模态融合

今年三季度以来,商汤科技超越了最初的探索,进入了多模态大模型研发的新阶段——实现跨模态深度融合。带着这个目标,商汤科技打造了全新的原生多模态大模型——RiRiXin SenseNova 多模态大模型。

跨模态深度融合是指能够弥合不同模态(自然语言、代码、语音、图像、医学影像、视频等)之间的差距,充分利用不同模态的信息,利用跨模态逆向渲染、多模态思维链等技术创新实现了数据之间的融合和交互。从而,模型的感知和理解能力将大大增强,支持多模态融合推理的实施。

跨模态融合的方法有很多种。例如,商汤科技的RiRixin多模态大模型通过融合预训练和后训练技术,大大增强了其数学逻辑和推理能力。

评测过程中,当我们从“五年高考,三年模拟”中随机抽取几道高考数学题时,日日新多模态大模型都能轻松应对。

问题:这道选择题如何回答?

_美国紫罗兰挑战权威_挑战国家权威

商汤科技每天都会输出新的结果,并给出详细的解决问题流程:

美国紫罗兰挑战权威__挑战国家权威

问题:如何解决这个问题?请告诉我详细的想法

商汤科技每日新增产出结果:

美国紫罗兰挑战权威_挑战国家权威_

商汤RiRixin再次输出正确结果。

数学答案很完美,我们来看物理。

商汤科技每日新增产出结果:

_挑战国家权威_美国紫罗兰挑战权威

物理题我也答对了~

此外,通过多模态融合和模型的定向优化,商汤科技日常多模态大模型也大幅提升了统计图表和多模态文档的理解能力。

评测的时候,难度加大了,看看结果如何。

问题:使用下表中的数据,计算 2011 年每股 FCFE 金额。

_美国紫罗兰挑战权威_挑战国家权威

商汤科技每天输出推理结果:

美国紫罗兰挑战权威__挑战国家权威

商汤日新成功输出推理结果,效果惊人。

由于融合模式有效提升了大型AI模型的性能,未来多模态融合可以广泛应用于很多场景,比如在线教育、语音客服等场景,将语音与自然语言相结合,提升交互体验;在自动驾驶场景中,融合视觉和多模态数据,提高感知精度和决策能力。

数学只是起点。目前,Ririxin的SenseNova多模态大模型可以通过API调用,并将很快提供普通用户体验。

本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273427.html

联系我们

在线咨询:点击这里给我发消息

微信号:13588888888

工作日:9:30-18:30,节假日休息