最近打开AI新闻,页面很大一部分是与AI搜索相关的。从 Vincent Video 的 Sora 开始,人工智能巨头已经进入搜索世界。
这让我想起了几天前我难倒Kimi的一个问题。即:100ml咖啡粉大约相当于多少克咖啡豆。
是这样的。双十一买了一袋250g的咖啡豆,去咖啡店磨成粉手冲。朋友想尝试一下,坚持要和我AA,但是我们没有秤,无法计算。最后他拿来一个毫升量容器,装满了100毫升。
所以我就偷懒去问Kimi。 Kimi给我答案后,我当场截图了。
Kimi读了35个网页,告诉我100毫升咖啡粉大约相当于285.71克咖啡豆。
我买的咖啡豆一共250克。
我说太难了,一再劝说朋友,但他最终还是放弃了和我在一起。
因此,今天写评论时,我会用“困境”作为提示来评估哪家AI搜索公司更好。
提示:100ml咖啡粉中有多少克咖啡豆?
参赛者包括《月之暗面》Kimi、字节豆宝、Secret Tower AI Search、Perplexity 和 ChatGPT。
月之暗面基米
首先,我们给了 Kimi 一次机会。这次我们使用了Kimi Discovery Edition,它专注于解决复杂的搜索问题。大约15秒后,Kimi给出了答案。
Kimi的说法中,100ml咖啡粉需要前面20g咖啡豆,后面67g咖啡豆。这让我感觉不明白这100ml到底是咖啡粉还是现煮咖啡。
看看 Kimi 的工作流程,它搜索了我的问题。灰色文字表明Kimi使用了关键词搜索方式。
在右侧的搜索栏中,Kimi搜索最多的问题是咖啡中粉与水的比例。这篇文章不正确。有一种神的视角给出答案,但没有具体路径的直接感觉。
这让我有些失望。
我调整了一下措辞,再次尝试。打开新对话,仍然使用探索版,将提示改为:将250克咖啡豆磨成粉末,用来制作手冲咖啡。取出100毫升咖啡粉。这100毫升的咖啡粉是由多少克咖啡豆制成的?成功?
Kimi似乎离答案越来越近了,右侧的搜索栏也逐渐看起来正确了。然而,当我点击右侧的链接时,我找不到Kimi在前五个链接中引用的密度信息。
另外,前三个链接均来自一位咖啡爱好者分享的帖子。信息来源的可靠性大概是真的:内容由大型AI模型生成,请仔细筛选。
字节豆袋
豆宝左侧功能区有一个专门为AI搜索预留的模块。输入提示后,大约8秒就给了我回复。
虽然豆宝的工作流程也是理解题——上网搜索——查找出处——总结陈述,但从结论来看,豆宝一开始并没有理解题,而是根据搜索到的信息交出了一份潦草的答卷。
值得称赞的是,豆宝在摘要文本中添加了来源引文注释,使文本更具可跟随性。
那么我们也对豆袋友好一点,打开一个新对话,使用更具体的提示,搜索:将250克咖啡豆磨成粉末,用它来制作手冲咖啡。取出100毫升咖啡粉。这个100ml是什么?研磨咖啡由多少克咖啡豆制成?
豆宝表示,由于缺乏咖啡粉的密度数据,无法直接换算相应的品质。搜索的网页数量从 5 个变为 6 个,这是一个进步,但仍然显示出放缓的迹象。
于是,我尝试深度搜索,等了30秒。豆宝输出了一篇1500字的长文,告诉了我很多道理。其中包括250克咖啡豆研磨后的粉末体积范围、手冲咖啡所用咖啡粉的量等信息,但没有毫升和克之间的换算。
秘密塔 AI 搜索
秘塔AI最近风很大。这次等了大约十六秒后,秘塔递出了答卷。
不得不说,秘塔AI的表现让人惊讶。它不仅在文本语句中显示了完整的搜索路径,而且还准确锁定了我的问题对应的字节并给出了相应的答案。
这与人类使用搜索引擎查找信息的过程非常相似。
Secret Tower的搜索栏里还提供了全网、图书馆、学术、图片、推荐等几个版块,以适应不同搜索类型的需求。另外,你可以在右边看到Secret Tower甚至已经准备好下一步为我生成PPT了。
总的来说,Secret Tower AI表现出了出色的问题理解能力,我不需要进一步澄清提示。一切顺利而直接。
困惑
Perplexity是一家成立于2022年的美国人工智能初创公司。该公司创始人Aravind Srinivas来自OpenAI。 据悉,Perplexity 在 AI 搜索领域表现出色,尤其是在答案引擎方面,优势显着。
2023年10月,Perplexity完成A轮融资,估值5亿美元。此外,软银集团愿景基金二期计划向Perplexity投资1000万美元至2000万美元,对Perplexity的估值为30亿美元。近期,Perplexity 正在洽谈新一轮融资,希望将估值翻一番以上,达到 80 亿美元或更高。
困惑在 8 秒内做出了回应。
但从答案来看,Perplexity也认为我想喝100ml咖啡。
考虑到中文和英文的理解难度,我尝试修改一下提示:将250克咖啡豆磨成粉末,用来制作手冲咖啡。取出100毫升咖啡粉。这100毫升的咖啡粉是用多少克咖啡豆制成的? ?
困惑的回答让我立刻感觉好多了。
聊天GPT
再看ChatGPT,输入提示后,ChatGPT在13秒左右给了我答案:
ChatGPT 话不多,答案简单明了。
首先,理解问题的能力强。其次,算法逻辑是五位选手中的一股清流。虽然数值与上面相差较大,但也在波动范围之内。
看来我不需要进一步澄清提示了。
人工智能搜索 vs 传统短查询
本次评测选择的提示指向了近期人工智能领域流行的数学推理能力和“搜索引擎替代理论”。
10月31日,OpenAI发布ChatGPT搜索,引发全球热议:生成式AI会改变人们获取信息的方式吗?作为传统搜索引擎,谷歌首当其冲。很多人认为OpenAI的搜索引擎未来可能会成为“谷歌杀手”。
国内不少大型车型也推出了AI搜索版本。它们可以直接提供实时答案,帮助用户避免浏览大量广告和SEO优化的文章,快速找到所需的信息,并以相对简洁的格式呈现答案并附加信息。源链接和参考注释也可用于快速验证人工智能生成的文本。
但无论是哪家公司,距离技术成熟还有很长的路要走。
这不仅仅是人工智能不够“聪明”的问题。
更深刻的问题是,AI搜索采用关键词搜索,而Google等传统搜索引擎最常用的功能是导航查询。
四个单词或更少的简短查询占 Google 搜索的大部分。这些通常是用户知道但懒得逐字输入的URL,或者只是通过关键字快速找到目标网页的搜索。
比如“上海天气”、“白T恤”、“咖啡馆营业时间”、“附近自习室”等,这些查询让谷歌成为了亿万网民上网的入口。
我进入“白T恤”购物,豆宝给我讲解了白T恤的几种款式、面料和设计。
大型语言模型可能不适合处理这些短提示。通常需要完整的问题才能有效回答,因为完整的问题会产生强大的统计模式。 AI搜索不明白,搜索“白T恤”的人可能是想购物,而不是了解这件衣服的材质。
对于这些问题,用户可能需要一遍又一遍地具体和精确,就像我修改提示时所做的那样。
OpenAI 发言人 Niko Felix 在一份电子邮件声明中表示:“在使用 ChatGPT 搜索时,我们观察到,与以前使用其他搜索工具相比,用户更有可能用自然语言提出问题。同时,网络导航查询通常更短且相当短。”我们计划随着时间的推移改善这些查询类型的体验。”
Perplexity 也被吹捧为“Google 杀手”,但它在短查询方面也遇到了同样的问题。
Perplexity 首席执行官 Aravind Srinivas 曾经谈到用户使用其产品和 Google 搜索的不同方式,“Google 搜索中的查询字数中位数在 2 到 3 之间,而在 Perplexity 上则在 10 到 11 之间。所以。显然,用户会提出问题直接在 Perplexity 上使用的频率更高,而在 Google 上,用户通常输入几个关键字来快速找到特定链接。”
但从另一个角度来看,这意味着人工智能搜索在回答长问题时表现相当不错。
诸如“美联储继续宣布降息对全球经济有何影响?”等复杂问题。对于Google来说往往很难回答,但AI搜索可以快速从多个网站获取信息并提供合理的答案(Perplexity在回答此类问题时也表现良好)。
要真正取代谷歌,人工智能搜索需要改进人们日常生活中更常用的短查询。但问题是,为什么人工智能搜索一定要取代谷歌呢?
人工智能搜索填补了传统搜索所掩盖的信息的新空白,这本身就很有价值。
为什么不深入探讨知识问题来挖一口新井呢?
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/271189.html