MIT研究者揭示Transformer在经典统计任务中的潜力：Empirical Bayes Mean Estimation-模具钢网

MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍_MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍_

机器之心报道

机器之心编辑部

Transformer 取得了成功。更普遍来讲，我们甚至能够把（仅包含编码器的）Transformer 当作学习可交换数据的通用引擎。因为大多数经典的统计学任务都是基于独立同分布（iid）的假设来构建的，所以很自然地可以尝试把 Transformer 应用到这些任务中。

经典统计问题训练 Transformer 有两个好处。其一，它能提升模型对经典统计问题的处理能力；其二，有助于模型更好地适应经典统计领域的任务和数据分布。

近日，MIT 的三位研究者 Anzo Teh、Mark Jabbour 和 Yury Polyanskiy 称找到了一个能满足“可能存在的最简单的这类统计任务”需求的东西，即 empirical Bayes (EB) mean estimation（经验贝叶斯均值估计）。

_MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍_MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍

该团队称：我们觉得 Transformer 适合用于 EB。因为 EB 估计器会自然呈现出收缩效应，也就是会让均值估计倾向于先验的最近模式，而 Transformer 也是这样，其注意力机制倾向于关注聚类 token。可参阅论文《The emergence of clusters in self-attention dynamics》来了解注意力机制的相关研究。

该团队还发现，EB 均值估计问题具备置换不变性，所以不需要位置编码。

一方面，人们对这一问题的估计器有着强烈的需求。然而，令人困扰的是，即便最好的经典估计器，也就是非参数最大似然（NPMLE），也存在着收敛速度较为缓慢的状况。

MIT 的这个三人团队进行的研究表明，Transformer 的性能表现比 NPMLE 要好。并且，Transformer 还能够以接近 NPMLE 的 100 倍的速度运行。

总之，本文证实了即便针对经典的统计问题，Transformer 也给出了一种优良的替代办法，在运行时间和性能方面表现出色。对于简单的 1D 泊松 - EB 任务，本文还察觉到，即便只是参数规模极小的 Transformer< 10 万参数）也能表现出色。

定义 EB 任务

_MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍_MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍

理解 Transformer 是如何工作的

论文第四章的目的是解释 Transformer 的工作原理，并且通过两个角度来达成这一目标。其一，他们构建了关于 Transformer 在处理经验贝叶斯任务时表达能力的相关理论成果。其二，他们运用线性探针来对 Transformer 的预测机制进行研究。

本文首先提及 clipped Robbins 估计器，它的定义情况如下：

得出：transformer 能够学习到任何精度的 clipped Robbins 估计器。也就是：

本文证明了类似的情况，transformer 还能够近似 NPMLE。也就是说：

附录 B 中包含完整的证明过程，而论文正文仅提供了一个大致的概述。

研究者接下来探讨了 Transformer 模型的学习方式。他们借助线性探针技术来对 Transformer 的学习机制进行研究。

这项研究的目的在于知晓 Transformer 模型是否会像 Robbins 估计或 NPMLE 那般工作。从图 1 的结果能够看出，Transformer 模型并非仅仅是对这些特征进行学习，而是在学习贝叶斯估计器具体是什么。

MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍_MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍_

总结来说，本章证明了 Transformer 能够近似 Robbins 估计器。同时，本章也证明了 Transformer 能够近似 NPMLE（非参数最大似然估计器）。

此外，本文借助线性探针来证明，经过预训练的 Transformer 的工作方式与那两种估计器是不一样的。

合成数据实验与真实数据实验

表 1 展示了模型参数设置。本文选取了两个模型，依据层数分别给它们命名为 T18 和 T24，这两个模型各自大约拥有 25.6k 个参数。同时，本文还定义了 T18r 和 T24r 这两个模型。

_MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍_MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍

在该实验里，本文对 Transformer 适应不同序列长度的能力进行了评估。图 2 把 4096 个先验的平均后悔值给报告了出来。

_MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍_MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍

图 6 展现出 transformer 的运行时间和 ERM 的运行时间相差无几。

MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍_MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍_

合成实验具有重要意义。Transformer 展现出了长度泛化能力。即便在未曾见过的先验分布上，当测试序列的长度达到训练长度的 4 倍时，它们依然能够达成更低的后悔值。这一点很重要，多项研究显示，Transformer 在长度泛化方面的表现各不相同，比如[ZAC+24, WJW+24, KPNR+24, AWA+22]这些研究。

本文最后在真实数据集上对这些 Transformer 模型进行了评估，目的是完成类似的预测任务。评估结果显示，这些模型通常比经典基线方法更优秀，并且在速度方面远远领先。

MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍__MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍

从表 3 能够得知，在诸多数据集中，Transformer 相较于传统方法呈现出显著的改进态势。

MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍__MIT团队：用Transformer解决经验贝叶斯问题，比经典方法快100倍

总之，本文证实了 Transformer 可以凭借上下文学习来掌握 EB - 泊松问题。在实验期间，作者表明随着序列长度的递增，Transformer 能够让后悔值降低。本文在真实数据集上证明了，这些预训练的 Transformer 在大多数情况下是能够超越经典基线方法的。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/274593.html

MIT研究者揭示Transformer在经典统计任务中的潜力：Empirical Bayes Mean Estimation

相关推荐

联系我们