LeCun访谈：语言模型发展瓶颈与未来AI发展方向探讨-模具钢网

齐悦来自奥飞斯量子比特 |公众号QbitAI语言模型的开发一直难以实现重大突破。

这是LeCun在最新采访中给出的断言。

_LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练_LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练

戴着Meta流行的智能眼镜，LeCun再次表示，人类离AGI还没有那么近，“大约需要5-10年”，他对语言模型发展的判断更不乐观。

未来在哪里？还是得看世界模型

未来，人工智能需要情感和视觉训练，以及能够理解物理环境的世界模型。

人工智能发展的关键是什么？开源，Llama 之于人工智能，就像 Linux 之于互联网。

如果未来Llama能够发展成为一个全球性的、分布式的AI计算平台，那么可以极大地促进AI的发展。

采访在约翰·霍普金斯大学彭博中心进行，由 Vox Media 的卡拉·斯威舍 (Kara Swisher) 主持。

在不改变原意的情况下，量子比特梳理了采访要点。

LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练__LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练

更智能的人工智能需要情感和视觉能力

问：您获得了 2024 年 Vin 未来奖。在您的获奖感言中，您提到人工智能不像人类或动物那样学习。他们没有从物质世界中获得大量的视觉观察，但你一直在努力实现这一目标。

LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练_LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练_

LeCun：我们将拥有像人类和动物一样有效地学习新技能和任务的系统，但目前我们无法用机器复制这一点。

我们无法让家庭机器人足够智能，原因很简单，我们训练的法学硕士和机器人都是基于所有公开可用的文本，大约有 20 万亿个单词，每个单词由大约 3 个字节表示，所以大约是 6 乘以 10 14 个字的幂。

心理学家会告诉你，一个四岁的孩子总共有16000个小时是清醒的，视觉信息以大约每秒2兆字节的速度进入孩子的大脑。让我们算一下，我们有 100 万到 200 万条视神经纤维，每条每秒传输大约 1 个字节，而且我们有两只眼睛，所以每秒大约传输 2 兆字节。

这样算下来，16000小时就是10^14字节，这和最大的LLM通过文本看到的数据量是一样的。我们需要数万年的时间才能阅读这些文本。这告诉我们，仅仅通过文本训练我们永远无法达到人类水平的人工智能，我们必须训练感官输入

基本上，视觉输入是无限的，16000小时的视频大约是YouTube上上传的30分钟视频的总长度。我们拥有的视频数据超出了我们的处理能力。因此，人工智能在未来几年内实现下一阶段进步的最大挑战是使系统能够通过观看视频并与之交互来了解世界是如何运作的。

这个问题还没有解决，但我认为未来五年很有可能会取得重大进展，这就是为什么你会看到所有这些公司开始建造人形机器人。他们还无法制造出足够智能的机器人，但他们相信人工智能将在未来五年内取得足够的进步，以便可以向公众出售。

我们预计，在未来几年的路线图中，人工智能系统将把情感作为这些系统设计的基本组成部分。他们为什么会有情绪？因为它们是目标驱动的，所以您给它们一个必须完成的任务，并且它们被设计为在硬编码到其设计中的约束内完成该任务。

为了做到这一点，它们需要多个组件。首先，他们需要一种方法来确定我们给他们的目标是否已经实现。此外，它们还需要我们所说的世界模型，这是我们前额叶皮层中都有的东西，它使我们能够想象我们的行为的后果是什么，这使我们能够计划一系列的行动来完成一个目标。具体目标。

如果你有能力提前预测行动方案会产生什么结果，那么你就可以预测目标是否会实现，并预测结果是好还是坏。如果你预测结果会很糟糕，你就会感到恐惧；如果你预测结果会很糟糕，你就会感到恐惧。如果你预测结果会很好，你会感到兴奋。因此，预测并采取行动实现这些预测的能力会产生类似于情感的东西。

因此，一个足够聪明的人工智能系统，一个能够推理、计划并拥有世界模型的人工智能系统，将会有情感。

问：这将产生广泛的影响，可能会改变学习的方式，改变一切，让每个人相处得更好。但仇恨、功能失调、孤独等问题仍然存在，您对此有何看法？

LeCun：我不是亿万富翁，我首先是一名科学家，如果没有一定程度的科学诚信，我就无法照镜子。科学的整个过程就是你要接受你可能是错的，正确的想法来自于多种意见和不同意见的人的碰撞。

我们看看现实，人们说人工智能会摧毁社会，因为我们会被虚假信息和仇恨言论所淹没等等，但我们根本没有看到这种情况发生。事实是，人们制造仇恨言论，他们制造虚假信息，他们试图以各种方式传播它，但我们最好的防御是人工智能系统。

我们需要的是更多人工智能技术掌握在好人手中，而不是坏人手中。

语言模型的改进是很困难的。未来，每个人都会有一个AI助手。

问：您刚才说自回归LLM已经达到了性能上限。下一代人工智能系统和大型语言模型有什么区别？

LeCun：过去有人认为，像GPT这样的LLM只要扩大规模，用更多的数据进行训练，使用更多的计算能力，就能产生人类级别的智能。我从来不相信这个概念。 llya曾经是这个概念的著名信徒，但他也放弃了。

LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练_LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练_

这些系统的性能已经达到了上限，因为我们基本上已经用尽了所有公开可用的文本数据来训练这些LLM，不可能获得比这更多的数据。所以人们开始生成合成数据和类似的东西，但不可能将性能提高 10 倍或 100 倍

LLM 被称为大型语言模型，因为它基本上被训练来预测文本中的下一个单词，这些系统实际上是预测可用于生成文本的单词的概率分布。这是自回归部分。

无法保证产生的单词序列有意义，有可能产生乱码或虚构的内容。因此，许多行业都在试图找到一种方法，从根本上训练人类参与的系统来执行特定任务，而不产生无意义的内容。

我们正在研究的是下一代人工智能系统，它不仅仅基于预测下一个单词。

当他们不知道答案时，他们可以查询数据库或搜索引擎。您需要拥有能够检测系统是否知道答案的系统，然后可能生成多个答案，然后您就知道选择哪个答案是好的答案。

问：上周 Meta 发布了 MetaMotivo，它可以创建看起来更像活人的数字人。这似乎是一次让虚拟宇宙再次真实的尝试，你能告诉我这是什么吗？因为你在这些事情上投入了很多钱。

LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练_LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练_

LeCun：我现在戴着智能眼镜，我们最终将围绕智能眼镜或其他智能设备进行工作，这些设备将具有人工智能助手，我可以通过它与人工智能进行通信。这些设备将为我们的日常生活提供帮助，我们期望这些系统在很多方面具有人类水平的智能甚至超人的智能。

但我们离这个目标还很远。不是几个世纪，也可能不是几十年，但可能是几年。 LLM可以通过律师资格考试，或者通过一些大学考试。但家庭机器人还不能完全打扫房间、清理桌子或洗碗。并不是我们无法制造机器人，而是我们无法让它们足够聪明来理解物理世界。事实证明，对于人工智能系统来说，物理世界要复杂得多。

这些系统最终将能够规划一系列行动来实现特定目标，这就是我们所说的代理。 Agent系统是一个可以规划一系列动作以实现特定结果的系统。现在大家谈论的代理系统实际上并没有做到这一点。

问：Meta 仍在开发人工智能搜索引擎。我猜你想超越谷歌搜索？

LeCun：智能助手的一个重要组成部分当然是搜索。您搜索事实并链接到这些事实的来源。这样，与您交谈的人就会相信结果。所以搜索引擎是整个人工智能系统的一个组成部分。

但最终的目标不是与谷歌直接竞争，而是为那些需要人工智能助手的人提供服务。

未来，每个人时时刻刻都有一个AI助手，这将成为一个新的计算平台。我们过去称之为元宇宙，但这些眼镜最终将有显示器，增强现实显示器。已经有这方面的示范，例如猎户座项目。我们现在可以让它足够便宜来出售。

问：现在人工助理的成本低得多。目前，Meta 预计支出 380 亿至 400 亿美元，谷歌表示将超过 510 亿美元，分析师预测微软将支出接近 900 亿美元。你担心被超越吗？您认为这是一项值得的投资吗？

LeCun：我不这么认为。我早期并没有在 Facebook 接受这份工作，所以不要问我这个问题。但这是一项长期投资，你需要基础设施来以合理的速度为越来越多的人运行这些人工智能助手。

目前有6亿人使用Meta AI，开源引擎Llama的下载量已达6.5亿次，这是一个惊人的数字。全球有 85,000 个源自 Llama 的项目，全部都是公开可用的，而且大多数都是开源的。很多这样的项目基本上都是训练美洲驼说一种特定的语言，比如来自印度的语言。

我不认为这个投资不公平，因为未来每天都会有很多人使用这些AI系统，而且一两年内会有很多增长。这些系统越强大，就越有用，但计算成本也越高。所以这个投资是基础设施的投资。

Llama 就像人工智能的 Linux

Q：Meta最近发布了Llama3.3，您认为它的主要功能是什么？与其他公司的封闭模式相比有什么特点？

LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练__LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练

LeCun：Llama 与大多数其他模型的主要区别在于它是免费和开源的。从技术上来说，开源软件是指有源代码的软件，你可以自己修改、编译，并且可以免费使用。而且，在大多数许可证下，如果您对其进行一些改进并希望在产品中使用它，则必须将改进作为源代码发布，这使得开源项目能够非常快速地发展，这是一种成功的方式分发软件多年。

整个互联网都在开源软件上运行，世界上大多数计算机都在 Linux 上运行，除了少数台式机和少数 iPhone 之外，其他所有计算机也都在 Linux 上运行。 Linux非常成功，因为它是一个平台，人们可以修改它，使其更安全、更可靠等，从而可以在各种硬件上运行。这不是有意为之，而是由市场力量自然驱动的。

在人工智能领域，确定某个东西是否开源变得很复杂，因为构建人工智能系统首先需要收集训练数据，然后根据这些训练数据训练所谓的基础模型。训练代码和数据通常不公开。例如，Meta 不会公开 Llama 模型的训练数据或大部分训练代码。

然后就可以分发训练好的基础模型了，比如Llama。它是开源的，您可以在任何地方运行该系统并对其进行微调。你不需要付钱给Meta或者问他们，你可以自己做这些事情。但也存在一些限制，主要是由于法律环境的原因。

很多大型模型都是封闭的，比如OpenAI、Anthropic、Google。这可能是因为他们想获得商业优势。例如，如果你想直接从这类产品中获得收入，并且你认为你可能领先于技术，那么你可能有理由保持关闭状态。

但对于 Meta 来说，Meta 的人工智能工具是由广告收入资助的一套体验的一部分，因此人工智能并不是主要收入来源。另一方面，我们认为平台会发展得更快，事实上我们已经看到Llama平台促进了更多的创新。有很多创新是我们没有想到的，或者是我们没有办法做到的，但是人们有了Llama模型之后，就可以进行实验，提出新的想法。

问：很多人批评 Meta 在 AI 竞争中落后。开源模型是您用来追赶的工具。你怎么认为？

LeCun：首先你要认识到，除了Google之外，业界所有人在构建人工智能系统时都在使用一个名为PyTorch的开源软件平台。这个平台最初是由 Meta 开发的，后来将所有权转让给了 Linux 基金会，所以现在它不再属于 Meta。 OpenAI 的每个人都使用它，因此如果没有 Meta，GPT 和 Claude 等模型可能不会像今天这样发达。

LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练__LeCun最新访谈:距离AGI可能不到10年,下一代AI需要情感和视觉训练

像 GPT 这样的工具使用的是在不同地方发明的底层技术。 OpenAI在不那么神秘的时候做出了一些贡献，并且在过去三年左右的时间里变得越来越神秘。谷歌确实做出了一些贡献，但从未真正开放。他们试图秘密推进这项技术。

我认为Meta是一个相当大的研究机构。我们的研究机构叫FAIR，以前叫Facebook Research。现在主要做基础研究。我们大约有 500 名员工在那里工作。我们正在研究的实际上是下一代人工智能系统，超越法学硕士、超越大型语言模型、超越聊天机器人。这叫大概念模型，是具体的部分。

可以提前设计更安全的人工智能系统

问：您说专有人工智能模型集中在少数公司手中是一个巨大的危险。开源模型的批评者还担心，不良行为者可能会利用它们来传播错误信息、网络战、生物恐怖主义等。我们来谈谈两者的区别。 Meta 正在采取哪些措施来防止这些情况发生？

LeCun：这是一场巨大的争论。我们的第一个 Llama 版本是最近才发布的，第一个 Llama 不是开源的。你必须征求许可，并且必须证明你是一名研究人员。这是因为法律环境是不确定的，我们不知道人们会用它做什么。

因此我们进行了几个月的内部讨论，每周两个小时，有 40 人参与。双方就安全和法律环境等各种问题进行了非常认真的讨论。然后在某个时候，Mark 决定开源 Llama 2。这将在 2023 年夏天完成。从那时起，它基本上完全驱动了整个行业。

为什么它比这些公司控制的专有模型更安全？因为越来越多的人关注它，越来越多的人针对各种事情对其进行微调。

一个问题是可能有很多人恶意使用它。所以在Llama团队中，我们曾经对我们发布的所有系统进行红队测试，以确保它们在发布时至少基本上是安全的。

我们甚至最初将 Llama 2 交给了 Defcon 的一群黑客，让他们尝试做坏事，比如尝试侵入系统之类的东西，这被称为白帽。结果是，在近两年的时间里，我们没有意识到我们分发的任何模型发生过任何真正糟糕的事情。

问：如果您的愿景是人工智能成为所有人类知识的存储库，那么所有人类知识都必须可用于训练这些模型。而且大多数要么没有数字化，要么已经数字化但没有公开。

LeCun：例如，法国国家图书馆的所有内容都已数字化，但不能用于培训。我不是在谈论受版权保护的作品。我的家人来自法国西部的布列塔尼。那里的传统语言濒临灭绝，每天只有大约三万人使用这种语言。

如果你希望未来的法学硕士会讲布列塔尼语，你需要有足够的训练数据。您将从哪里获得这些数据？您将获得文化非营利组织的帮助，他们会收集他们拥有的一切。也许政府会帮助他们。但他们可能会说，我希望你的系统说布列塔尼语，但我不想只给你我的数据。

我认为最好的方法是训练一个AI系统，一个分布式的全球AI系统仓库，利用来自世界各地的数据为全球系统做出贡献。您不需要复制数据。

就 Linux 而言，它实际上主要是由这些公司的员工支持的，他们告诉他们要实际分配他们的贡献。你可以有一个类似的系统，每个人都可以为这个全球模型做出贡献，这就是每个人的人工智能。

您不必为 Linux 付费，但如果您购买运行 Linux 的小部件（例如 Android 手机或汽车中的触摸屏），则需要为购买的小部件付费。对于人工智能来说也是如此。基本模型将是开源且免费的。

现在，确实感觉有少量的力量在幕后操纵。愿景是伟大的，但目前实施得还不是很好。然而，在我看来，这是不可避免的。

问：说到辩论，您喜欢与其他人工智能教父进行公开辩论，例如您的获奖同行 Jeffrey Hinton 和 Yoshua Bengio。他们都警告人工智能的潜在危险。

LeCun：我认为研发不需要受到监管。我不同意他们对加州SB 1047法案的看法。Hinton和Bengio都支持这项法案，而我则反对。我认为规范研发会给人工智能系统带来灾难性后果。我说，存在风险是一种幻觉，是由一小群偏执的智囊团宣扬的。

但辛顿和本吉奥并不偏执。辛顿刚刚因其工作而获得诺贝尔奖。此外，加州州长否决了该法案，但他正在与斯坦福大学的教授合作修改该法案。

我称之为无稽之谈，因为我认为危险已经被夸大到了扭曲的程度。有人说人工智能将在五个月内杀死我们所有人，这显然是错误的。

问：我们来谈谈 AGI（通用人工智能）以及我们离它还有多远。当人们听到这个时，他们会想到像《终结者》或《我，机器人》这样的剧集。

LeCun：Hinton 和 Bengio 认为 AGI 的时间表可能是五年，我认为可能是十年甚至更长。

我不知道那会是什么时候，但我个人认为最早可能是五到六年，但可能更接近十年。因为这比我们想象的要困难得多，而且历史上人们一直低估了开发人工智能的难度。

我们还不具备人类水平的智能，甚至不知道如何使用人工智能系统做很多事情，例如制造家庭机器人或 5 级自动驾驶汽车。在我们找到新的方法之前，我们甚至还没有走上达到人类水平智能的道路。

一旦我们有了蓝图和一些可信的论证，证明我们可能有一条通往人类水平智能的道路，我们就会知道如何保证它的安全。就像在 20 年代，有人告诉你，几十年后我们将能够以接近音速的速度飞越大西洋数百万英里，你会想，“天哪，怎么了？你知道这很安全吗？”但涡轮喷气机最终被证明是非常可靠的。

因此，让人工智能安全意味着以安全的方式设计人工智能系统。但在设计之前我们无法保证它的安全。

问：你似乎并不担心人工智能会统治人类。你说现在的AI比家猫还笨。不管人工智能是否真的想统治我们，我们是否应该对人工智能和人工智能研发施加一些限制？

LeCun：我认为研发不需要受到任何限制。但如果你想推出一个家庭机器人，你可能需要硬编码一些规则，并在构建时将法律嵌入到系统中。例如，当有人在场时，机器人无法挥舞刀。

当前人工智能系统的设计在某种程度上本质上是不安全的。你需要训练他们做你想做的事。我提出了一种称为目标驱动的替代架构，其中人工智能系统基本上只是为了实现一个目标而存在，除了在这个目标的约束下行动之外不能做任何其他事情。

问：包括 Hinton 和 Benjo 在内的许多人现在都支持 OpenAI 现任和前任员工签署的一封信，呼吁人工智能公司的员工有权就该技术的严重风险发出警告。你不支持那封信。您如何看待模型安全问题？

LeCun：我不是那个意思。禁止在公共场所使用大规模面部识别等措施将是一件好事。

还有一些措施，例如未经许可在视频中改变某人的面孔，这些措施基本上已经是合法的，仅仅因为我们拥有这些工具并不意味着它们不违法。可能需要针对这些行为制定具体的规则，但我对此表示同意。

我对人工智能本质上是危险的、研发需要受到监管的观点持异议，我认为这会适得其反。未来，我们将拥有那些我认为对民主的未来至关重要的开源平台，而这些规则将会适得其反，它们将使开源的风险太大，任何公司都无法分发，这样这些私人公司就会控制一切。。

如果所有东西都来自美国西海岸的三个公司，而且我们都说相同的语言，拥有相同的文化，那是完全不可接受的。

他们想要的是一个开放的平台，然后可以针对任何文化、价值体系或利益中心进行微调，以便全世界的用户都有选择，他们不必使用三个助手，他们可以使用其他人。

我们正在与印度的多个组织合作，下一版本的 Llama 将能够说印度所有 22 或 29 种官方语言，这甚至不足以覆盖印度的所有语言，因为印度有 700 种语言在印度，大部分都是口头语，没有书面语言。现在我们拥有让聊天机器人真正处理纯口语的技术，这真是太神奇了。

我们在越南也进行了类似的努力，我们看到世界各地的人们都在采用这些模型并将其用于各种目的。我认为我们需要一个更有意识的全球伙伴关系，让这些系统从一开始就作为基础模型，能够说世界上所有语言并理解所有文化，这样这些努力才更有可能取得成功，我们可以为各种应用构建专门的系统。

[1]

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/273565.html

LeCun访谈：语言模型发展瓶颈与未来AI发展方向探讨

相关推荐

联系我们