自两年前聊天机器人ChatGPT发布并风靡全球以来,多家科技公司的估值都受益于这波AI热潮。他们坚信,通过添加更多数据和计算能力来“扩展”当前模型,可以不断提高模型的能力。但现在,这种“越大越好”的信念开始受到挑战,一些人工智能科学家公开提出了这种模型的局限性,而这些科技公司,包括 ChatGPT 的公司 OpenAI,都在寻找更智能的人工智能新方法。
据路透社当地时间11月11日报道,人工智能公司在训练新的大型模型方面面临着延迟和挑战。三名知情人士透露,一家人工智能实验室的研究人员在发布大型语言模型的竞赛中遇到了困难。尽管结果延迟且令人失望,但该模型的表现优于 OpenAI 的 GPT-4 模型。
安全超级智能(SSI,Safe Super Intelligence)联合创始人 Ilya Sutskever 表示,扩大预训练的结果已达到平台期。所谓预训练,就是利用大量未标记的数据来训练人工智能模型以理解语言模式和结构的阶段。曾担任OpenAI首席科学家的Sutskevi今年早些时候从OpenAI辞职,随后成立了SSI。
“2010 年代是规模化时代,现在人们又回到了奇迹和发现的时代。每个人都在寻找下一个事物。”苏兹科维表示,“扩大规模”做正确的事情现在比以往任何时候都更加重要。更重要的是。 Sutskvi 拒绝透露其团队如何解决该问题的更多细节,仅表示 SSI 正在研究扩大预训练规模的替代方法。
大型模型会吞噬大量数据,耗尽世界上所有易于访问的数据。模型训练需要大量芯片且成本高昂,而且电力短缺阻碍了模型训练。据路透社报道,为了克服这些挑战,研究人员正在探索“测试时计算”,这是一种在推理阶段或使用模型时增强现有模型的技术。例如,模型可以实时生成和评估多种可能性并最终选择最佳路径,而不是立即选择单个答案。
这种方法允许模型将更多的处理能力投入到具有挑战性的任务中,例如数学、编程或需要类人推理和决策的复杂操作。 “事实证明,要求机器人思考玩扑克 20 秒,与将模型放大 10 万倍并训练 10 万次具有相同的效果。” OpenAI Research o1 研究员 Noam Brown 上个月在旧金山表示。 o1是OpenAI推出的新一代模型系列。与之前的模型相比,该模型显示出强大的推理能力。
据知情人士透露,来自 Anthropic、xAI 和 Google DeepMind 等顶级人工智能实验室的研究人员也一直在开发自己版本的人工智能技术。
这可能会改变人工智能硬件的竞争格局。十几位人工智能科学家、研究人员和投资者告诉路透社,他们相信 OpenAI 最近发布的 o1 模型背后的技术可能会重塑人工智能“军备竞赛”,并对能源、芯片和芯片带来压力,而这些永远无法满足人工智能公司的需求。资源有影响。
“这一转变将使我们从大规模预训练集群的世界转向推理云,这是一种分布式、基于云的推理服务器。”红杉资本合伙人索尼娅·黄表示。
据路透社报道,在芯片方面,与英伟达主导的训练芯片不同,这家芯片巨头可能在推理市场面临更多竞争。然而,Nvidia 首席执行官黄仁勋表示,使用 Nvidia 芯片进行推理的需求正在增加。 “我们现在发现了第二个标度律(scaling law),也就是推理阶段的标度律……所有这些因素都导致了对 Blackwell(Nvidia 最新人工智能芯片)芯片的需求非常高。”黄仁勋上个月在印度的一次会议上发表讲话。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/271182.html