人工智能新浪潮观察
6分钟读完
独家专访亚马逊云技术AI科学总监:缩放定律还有效吗?
郑轩2024/12/09
概括
大型模型的问题不是缩放定律失效,而是没有足够的数据。
如今,基础大车型领域呈现出“一超多强”的行业格局。 OpenAI 仍然占据着王座,但 Meta 的 Llama、Google 的 Gemini、Anthropic 的 Claude,以及 Luma、Suno 等垂直模型“势力”也在过去的一年里快速发展和迭代,甚至在细分领域超越了 OpenAI场地。
最近,一位新玩家加入了这个阵营。在刚刚结束的re:Invent 2024大会上,亚马逊正式发布了新一代Nova系列大型模型,其中既有高性价比的实用模型,也有可用于定制模型升华的“高性能模型”。同时,还提出了Any to Any的新概念,明年实现从多模态输入到多模态输出的自由AI生成。
该模型的训练由亚马逊云技术团队主导。作为全球最大的云计算平台和基础设施服务提供商,亚马逊云技术在re:Invent 2024期间发布了一系列主题,涉及人工智能基础设施、人工智能应用开发以及实际人工智能应用的技术更新。
Sherry Marcus 博士是亚马逊云技术生成人工智能的科学总监。她领导的团队主要负责RAG(Retrieval-Augmented Generation)Agent和模型蒸馏。她对新发布的Nova系列机型以及Amazon Q等AI应用也非常熟悉。
re:Invent 2024期间,Geek Park等国内媒体采访了Marcus博士。她与我们分享了Nova的技术特点和未来发展方向,以及她对模型蒸馏、幻象消除、Scaling Law等行业热点话题的思考。
Sherry Marcus 丨来自:亚马逊云技术
以下为采访内容,由极客公园整理。
Sherry Marcus:我的团队主要负责一些具体的技术工作,比如RAG Agent、模型蒸馏等。谢谢大家今天的到来。
问:当你们推出Q for Business产品线时,你们达到了预期的目标吗?
Sherry Marcus:你可以把它想象成一系列基于Amazon Bedrock的应用程序,其中包括预定义的RAG模型和一系列能力。客户可以利用这些技术来开发自己的应用程序。事实上,我们在客户渗透方面取得了不错的成绩,也提供了一些基于Amazon Bedrock的衍生产品。我们根据客户的数据需求,以多种方式为他们提供解决方案。
Q:针对AI幻觉问题你们有什么解决方案?
Sherry Marcus:我们有解决人工智能幻觉问题的方法。正如您今天在 Matt 的主题演讲中听到的那样,我们推出了“自动推理”能力,以确保大型语言模型的正确性。目前,已经有一些来自用户的实际应用案例,特别是在安全、基础设施建设等领域,我们也提供了相关的解决方案。
此外,我们还有一个名为“Contextual Grinding”的解决方案,确保大型语言模型根据基本原理和真实信息判断输出内容的准确性,减少AI错觉。虽然不能保证100%消除幻觉,但我们的解决方案目前处于行业领先水平。
问:您能谈谈合作伙伴的基岩市场吗?
Sherry Marcus:目前还不能向公众发布。明天的主题演讲后将会有相关消息。不过,我可以给你做一个简单的介绍。合作伙伴的基岩市场允许模型供应商将他们的模型贡献到该平台。客户可以在 Amazon Bedrock 上使用这些模型来实现各种功能应用程序。它是 Bedrock 平台的战略支柱,旨在为客户提供尽可能广泛的型号选择。
问:你们已经有一些主要的模型供应商了,对吧?那么,如果合作伙伴使用这个市场,他们会进行销售吗?它是如何运作的?
Sherry Marcus:是的,合作伙伴是模型的开发者,如果其他客户在 Bedrock 上使用他们的模型,合作伙伴就能受益。这个市场主要面向大型语言模型供应商,他们通过向 Bedrock 提供 API 来赚钱。我们有多个Marketplace,你提到的Marketplace只针对大型语言模型的开发者。明天斯瓦米的讲话中将会有更多具体信息。
问:如果使用合作伙伴模式时出现安全或其他问题,责任如何划分?
雪莉·马库斯:我们分担责任。大多数模型供应商都会在发布之前对其模型进行微调,以防止偏见和常见的攻击行为。这就是他们的“零层防御”。在模型进入 Amazon Bedrock 之前,我们会测试它们的保真度、公正性、稳定性和安全性。其次,对于使用这些模型的客户,我们提供了一项名为“Guardrail”的服务。客户可以根据自己的需求设定更高的安全标准,甚至规定一些不能讨论的敏感话题。
问:现在很多用户将 Nova 与 ChatGPT 等工具进行比较。您认为 Nova 与其他工具相比有何独特之处?
Sherry Marcus:Nova 的设计考虑了客户需求的三个核心点:低成本、低延迟和高精度。在构建 Nova 时,我们设法降低成本,同时确保其准确性与其他模型相当,而成本降低了 75%。这对市场非常有吸引力,因为许多进入壁垒实际上是成本。如果成本能够降低,顾客就会更愿意购买。另外,Nova是一个全新的系列,与Titan不同,采用了新的专业知识和学术积累,因此Nova与竞争对手相比非常有竞争力。
Q:您对Nova的升级计划有何规划?与竞争对手相比,您如何持续升级?
Sherry Marcus:是的,我也注意到大模型的更新速度非常快。例如,从 LLAMA 2 到 LLAMA 3 仅用了三个月的时间。Nova 的升级计划是尽量保持与竞争对手相似的速度,但亚马逊的做法有所不同。我们非常重视与客户的合作。在引入新功能、提升性能时,我们更多的是根据客户使用Nova后的反馈进行调整。这也是我们的不同之处。
问:缩放法则仍然有效吗?为什么?
雪莉·马库斯:是的,缩放法则仍然有效。我认为这是一个数据问题。神经网络越大,精度越高。这其实和我们训练的数据集有关。语义数据的积累可以使尺度法则更加有效。数据源的不断丰富也使得大型语言模型的训练和微调更加高效。虽然生成的数据可以用于训练,但如果用于训练大型模型,其效率将会降低。
Q:企业用户在使用大型模型时可能会遇到数据质量低的问题。如何更好地利用行业现有模型来支持客户开发小模型?
Sherry Marcus:我们建议使用“监督教师模式”并使用蒸馏技术。通过这种方法,学生模型可以与教师模型一样准确,尽管它通常基于行业特定的应用场景。蒸馏可以帮助提高小型模型的准确性,同时避免数据集过大。
问:大模型会取代小模型吗,特别是在人工智能产品质检领域?
雪莉·马库斯:不,我相信两者会共存。在一些特定的任务中,仍然会使用小模型,大模型会通过API调用小模型来执行一些任务,例如图检索。小模型对于特定的应用场景非常有帮助,可以降低成本、减少延迟、提高性能。
问:Nova 的典型客户有哪些?
Sherry Marcus:目前,Nova 拥有广泛的用户,从财富 100 强公司到初创公司。他们都使用亚马逊基岩。 Nova特别适合需要推理能力的场景,比如金融行业的对话和信息聚合,其中涉及到自然语言到SQL的转换以及背后的计算需求。
回复:发明 2024
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273135.html