DeepSeek新发布的AI模型会“报错门”吗?近日,有网友发现,当询问DeepSeek-V3模型“你是谁?”时,DeepSeek-V3似乎自称是ChatGPT。
当有网友问 DeepSeek-V3 模型“你是谁?”时,DeepSeek-V3 自称是 ChatGPT。来源:社交媒体截图
当进一步询问有关 DeepSeek API 的问题时,它回答了如何使用 OpenAI API 的说明,甚至还讲了一些与 GPT-4 一模一样的笑话。有网友问,“DeepSeek是否接受过ChatGPT生成的文本训练?”
DeepSeek-V3是由国内知名量化资产管理巨头欢放量化创立的杭州DeepSeek人工智能基础技术研究有限公司(以下简称“DeepSeek”)近期发布的全新系列模型。由于该模型的总训练成本较低,因此具有成本效益。发布后,不少网友称其为“国产之光”、“AI界的拼多多”。但发布一天后,就出现了上述疑似“翻车”的现象。
截至发稿,深度搜索公司尚未对此作出回应。但现在当 DeepSeek-V3 模型再次被问到“你是谁”时,模型的问答已经恢复正常。
DeepSeek-V3并不是第一个让自己感到困惑的模型。科技媒体TechCrunch报道称,当谷歌的AI模型Gemini被用中文问你是谁时,它也回答说是百度的文心一言。
国内一家智能科技公司的技术总监向澎湃科技记者分析称,DeepSeek-V3可能会直接使用ChatGPT生成的文本作为训练基础。在训练过程中,模型可能会记住一些 GPT-4 输出并逐字背诵它们。
业内人士指出,目前大型互联网模型的高质量数据训练集有限,且训练过程不存在重叠。但是否构成抄袭也很难界定。即便“站在ChatGPT巨头的肩膀上,成本的降低是实实在在的”。
然而,直接在 ChatGPT 生成的文本上训练 DeepSeek-V3 并不奇怪。前述智能科技公司技术总监指出,使用GPT答案作为数据集来训练自己的模型在中国很常见。 “这不需要抓取数据。 ,并且可以进行额外的数据处理,可以节省时间、人力和培训成本。 “训练大型模型需要吞并大量数据,耗尽世界上所有容易获得的数据。
TechCrunch在报告中分析称,造成这一现象的原因是互联网(AI公司获得大量训练数据的地方)目前充斥着AI垃圾。生成式人工智能大型模型是在互联网数据上训练的,这些数据虽然信息丰富,但也充满了不准确之处,包括“胡言乱语”。 ChatGPT、Copilot、Gemini等AI工具都为用户提供了看似真实但捏造的数据。
根据欧盟执法机构的报告,到2026年,90%的在线内容可能是人工生成的。该报告预测,这种数据“污染”使得从训练数据中彻底过滤人工智能生成的内容变得非常困难。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273814.html