革新 AI 终端的操作体验,不止靠模型能力。
作者|张勇毅
编辑|郑玄
正式并入阿里 AI To C 业务之后,通义有了新的动作。
最近,通义 App 进行了全新升级。它整合了上周刚刚开源的 QwQ-32B。同时,还上线了人格化的智能体,将其作为产品的主要交互对象。
「智能体」与 AI 大模型有所不同。它所强调的内容,除了模型本身的能力之外,还包含了目标导向的需求。它能够通过感知环境,进行自主决策并执行动作,以此在真实环境中完成操作。
这次更新,算得上通义 App 上线后最重要的一次产品迭代之举。上周开源的 QwQ-32B 一方面因其以更低参数量实现了可媲美 R1 的推理和通用能力,所以受到了全球 AI 行业的关注;另一方面,Monica 团队推出的 Manus 一夜爆火,智能体成为近期行业关注的焦点,人们期望能看到更多能够影响真实世界的 AI 应用诞生。
过去的两年间,通义千问一直依靠模型能力自身,借助 AI 模型生成视频等手段,多次在全球社交媒体上引起广泛关注而“出圈”。正因如此,有许多人都期待通义 APP 的此次更新,能够切实地整合阿里在模型领域的竞争优势,在面向 C 端用户的 App 应用场景中打造出受欢迎的产品。
路遥知马力,这一点是确定的。通义 App 这次在用户体验方面能否带来惊喜,确实需要去尝试才能知晓。
01
实测效果
QwQ - 32B 如其名,是一款大模型,其参数数量为 320 亿。阿里通过基础模型与大规模强化学习相结合的方式,在前代模型的基础上达成了性能的提升。
在之前开源版本的基准测试里能够看出,它的数学推理能力、编程能力以及通用能力,已经能够和具有 6710 亿参数的 DeepSeek-R1 相媲美。
千问 QwQ-32B 既能保持强劲性能,又能大幅降低部署使用成本,并且在消费级显卡上也能够实现本地部署。
本次更新后,在通义 App 首页可以看到千问 QwQ-32B 的应用。并且,这里提供了多个能体现深度思考能力的问题,以供用户体验。
通义 App 整合了深度思考能力,在面对诸如“若 A = 5,B = 3 * A,C = B + 2,求 C 的值”这样的数学逻辑问题时,能够进行解答;在面对“分析《哪吒 2》三个关键角色的 MBTI 这样根据互联网内容”以及“把橙汁加进牛奶里”这样结合知识库的问题时,也能够给出相应的解答。
在实际的问题测试里,深度思考使得通义 App 顺利通过了像数学题这样的基准测试的理解。并且,它还展现出了对现实物理现象的推导能力。同时,与同期其他模型的回答相比,通义 App 更注重对结果的复核,并且会谨慎地列出其他可能的特征。
比如在应对另一个易误导 AI 的经典问题“为什么爸妈结婚没叫我参加婚礼?”时,通义 App 成功地察觉到了其中的逻辑破绽。不过,它依然从“时间因素”以及“婚礼习俗”等方面,小心翼翼地为这个看上去很“抽象”的问题,费尽心思地从各种角度,想出了更多的可能性。
QwQ-32B 在处理问题时,展现出了比以往更强的逻辑性,并且对回答持有更为谨慎的态度。 | 图片来源:极客公园
不过上面提到,QwQ - 32B 模型本身具有强大的能力。但这本身的强大并不能构成“超级智能体”的全部要素。随着大模型在端侧设备上的应用整合不断深入,“不同任务不同模型”这一逻辑概念也被越来越多的人所熟知。
从模型能力方面来看,通义 App 是一个超级智能体,它属于复合模型。像问答、聊天等功能调用的是阿里不同的模型能力,而代码、翻译、逻辑推理等功能调用的则是通义千问的旗舰模型 Qwen2.5-MAX。
本次通义 App 更新的另一个重点不是模型能力本身,而是聚焦在了 App 本身。在近两年 AI 应用能力军备竞赛非常激烈的情况下,这种聚焦在 App 本身的情况是很罕见的,但也正因为如此,它更加值得关注。
新版通义 App 的主页设计被分成了三部分,左滑和右滑分别对应着不同的功能。首页左滑可以看到历史记录,其中包含聊过的智能体以及对话记录等,这样便于进行高效的管理以及资产沉淀。而右滑则能够进入通义丰富的智能体生态,此生态覆盖了学习、工作、娱乐等多种不同的场景。像拍照讲题、思维导图这类新增的功能,在首页的输入栏上方就能够被找到。
新版通义 App 的主要可交互界面被分成了左滑页面和右滑页面。图片来源于极客公园。
在首页,通义 App 新增了一个“邻家女孩”形象。此前通义千问大模型产品以科研和代码能力为专长,而这个“邻家女孩”是从未出现过的 AI 陪伴形象。用户通过与她对话,能够直接使用到 QwQ - 32B 的全部能力。
在右滑之后进入的界面里,除了新形象之外,你可以找到各种对应具体应用场景的模型能力。比如“健康顾问”“AI 扩图”等重要但小到不会有人专为其开发 App 的场景。这些都被通义 App 整合到了这个“工具箱”中。用户在这里能够依据自身的具体使用需求,创建专属于自己的智能体。比如让模型去模仿某个剧中的角色,亦或是借助模型的能力,创建各种各样的娱乐游戏。
除此之外,通义 App 不存在其他主要的交互方式。所有内容都被浓缩在这三大页面里。这让习惯了当代各种应用层层嵌套操作逻辑的我,一时间都无法适应这种突如其来的简洁。
官方开发人员介绍,未来通义 App 会在其 App 中持续加入更多 AI 能力,不过不会脱离“三大页面”的框架。并且,未来通义 App 能够依据用户的问题,自动辨别出应当调用哪个具体的智能体。
有体验新版通义 App 的网友感慨这个变化,他们说通义 App 让“最强 AI 飞入寻常百姓家”。
02
行业意义
在软件领域,“杀手级应用”是一个历史较为久远的名词。通义 App 称,“杀手级应用”的定义为一种具有颠覆性吸引力或者具备特定功能的 App。
按照这个定义,实际上在 GPT 出现之后,到目前为止,AI ToC 应用生态都还没有出现真正的“杀手级应用”。
这一现象与 2025 年 AI Agent 的爆火情况相反。AI Agent 出现了“代替你做一切”的概念,这实际上促使大模型应用在体验方面必须做到“更好用”。大模型应用不仅要能够聊天,还需要在诸如帮用户规划行程、查找资料等相关场景中,展现出“超级入口”应具备的智能。
“AI 即 APP”面临的最大挑战是用户习惯的转变。因为并非每个人都乐意为各个 AI 单独去下载一个又一个的 APP,他们甚至更倾向于在已有的 APP 中便捷地调用 AI。
通义 App 团队或许能让用户感受到“这个超级智能体啥都会干”。他们不仅能够满足问、聊、写作等基础需求,还能进行生图、拍图、翻译等操作。并且能在此基础上,做到更多根据用户个人需求进行专属定制的智能化内容。
03
总结
“智能体”这一概念从诞生起,就将追求目标导向作为设计指标。
通义 App 而言,更强悍的基座模型是在目标导向下的努力,“可爱的邻家女孩”也是在目标导向下的努力,这些努力都是为了让 AI App 更智能,使其能真正成为满足用户预期的超级入口。
一个 AI App 要让用户足够方便,它不只是一个简单的提效工具,还将会成为我们的“数字世界代理人”。
模型能力逐步提升,个人 AI 助理这个概念能做的事逐渐增多。
或许,当 AI Agent 进化至极致之时,我们将不再需要一个可用于触控的 UI 。像 AI 应用早期出现的 Rabbit R1 ,以及近期爆火的 Manus AI ,这些 AI Agent 产品,实际上都处于通向这个目标的不同阶段。通义 App 实际上是在这个方向上,朝着成为一个更易用的产品的目标,又迈出了坚实的一步。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/274919.html