如前所述,DeepMind 指出有四大风险区域,分别为滥用、错位、错误以及结构性风险。然而,它表示这并非是一种绝对的分类,这些领域既不是相互排斥的,也不是详尽无遗的。在实际中,许多具体的场景往往是多个领域的混合体。一个未对齐的 AI 系统或许会借助不良行为者的协助来泄露自身的模型权重,这便是滥用问题与未对齐问题的融合。在这类情形下,预计纳入缓解措施仍会产生效果,然而也应当考虑研发针对组合风险的特定缓解措施。
在系统出现错误等非对抗性的场景里,标准的安全工程实践,像测试验证等,能够使风险大幅度降低。现有的工程实践已经能够把因人为失误而导致严重危害的概率降低到非常低的水平,这在一定程度上是因为“严重危害”本身就属于阈值极高的事件这一客观情况。
DeepMind 认为,AI 错误导致严重伤害的可能性,比滥用或错位造成的严重性要低很多。不过,通过恰当的安全措施能够进一步降低这种 AI 错误。
DeepMind 认为,为防止滥用,应使用其所提出的前沿安全框架。该框架能够评估模型是否具备造成伤害的能力,还能在必要时在安全和部署方面采取缓解措施。
对于错位问题,DeepMind 的策略首先是实现良好的监管,而实现良好的监管在整个 AGI 安全领域是最为重要的。
人类用户若故意违背开发者的意愿,利用 AI 系统导致伤害,就会出现滥用情况。DeepMind 为避免这种情况,在安全方面以及部署方面都采取了缓解措施,目的是防止不良行为者获取足够权限后使用危险功能。
对于一个已采取缓解措施的 AI 系统,人们能够通过有意地滥用模型,并且在这个过程中避免造成实际伤害,以此来评估这些缓解措施的效果。
如果我们不能借助这些模型引发间接危害,那么外部行为主体也无法借助它们引发实际危害。需要说明的是,那些不良行为者或许会付出远超我们的努力。
如果不需要不良行为者参与就能导致“智能体伤害”,那么就应当强化缓解措施。
论文中,DeepMind 构建了一套任务评估体系。这套体系的目的是通过代表性能力测试来捕捉潜在的滥用风险。同时,也用于验证现有模型能否在该评估体系中获得高分表现。
首先,基于此类评估结果去论证滥用行为是不可行的。其次,如果模型缺乏必要的能力,那么就不用去实施额外的防护措施。
DeepMind 为实现这一目标,设定了可能出现滥用的能力阈值,并且把这个阈值映射到危险能力评估里的某个具体且可衡量的分数上。依据对阈值达到时间的预测,能够在合适的时间尺度上拟定缓解措施。
部署缓解措施的目的是,借助规范化的应用程序编程接口(API)访问控制,防止不良行为者获取危险能力。这种防护体系始于模型层级,具体包含两部分内容:
开发人员能够在后训练过程中教导模型不执行有害请求,这是第一部分的安全性后训练。在使用这种方法时,必须要确保模型能够抵御越狱攻击。
第二部分是关于能力抑制的内容:在理想的情形下,应当将模型的危险能力完全去除掉。需要特别指出的是,到目前为止,从技术层面来看,这依然是很难做到的事情,并且还有可能会给有益的用例带来过大的损害,从而导致在实际操作中无法使用。
DeepMind 的方法同时进一步考虑了系统层级的部署防护措施,并且将其与模型层防护相结合,这样就能形成一个纵深防御体系。这些部署防护措施包含:
第一种是监控。监控包含检测不良行为者在特定时间试图不当访问危险功能的行为,并且能够采取应对措施。其中,检测可以通过以下三种方式来实现:一是使用能够输出危害概率分数的分类器;二是利用模型的内部激活机制;三是手动审核生成的内容等。
第二种是关于访问的限制:具有危险能力的模型,其使用被限定在经过审查的用户群体以及特定的使用场景之中,这样一来,就能够降低不良行为者企图非法访问危险能力的概率。倘若某一个用户频繁引发安全监控的话,那么也可以对其进行限制。
安全缓解措施的目的是防止不良行为者窃取具有危险能力的 AI 系统。这类缓解措施总体上更适合于安全保障工作。同时,也有一些措施是专门针对防御 AI 模型的特定挑战而制定的。比如,有一些措施是为了限制能够单方面访问模型权重的人数而制定的。
要实现这一目标,需要有支持标准机器学习工作流程的接口。通过这些接口可以进行模型开发,同时也要针对这些接口进行加固。
DeepMind 在论文中提及了社会防御强化机制。此机制可借助 AI 系统提升社会的韧性。比如面对 AI 网络攻击能力时,该机制能够通过迅速修复关键基础设施的漏洞,以达成主动防御的目的。
此类缓解措施的作用是:要保证即便不良行为者获取了危险能力,也依然不能造成严重伤害。
当缓解措施到位后,在使用 DeepMind 的方法时,需要构建一个详细论点,即使用一套滥用缓解措施后,是否能将风险降低到适当水平。
此可以明确上述论证所依据的关键前提假设,并且通过压力测试把这些假设中的潜在缺陷揭示出来。比如,一些 AI 领域的红队或许能够发现那些能够避开安全微调缓解措施的新型越狱办法。
红队这一概念是从军事和网络安全领域的对抗训练中而来。在 AI 领域,它所指的是一组专门用来模拟对手或恶意行为者的专家团队。因为不良行为者或许会付出更多的努力,所以红队会获得额外的优势来进行补偿。
红队或许会被赋予对现有防护措施的全面知晓权,也可能通过主动提升防护阈值,从而人为地降低系统攻击的难度,以此来对防御体系在最不利状况下的有效性进行测试。
此外,把红队和缓解措施的开发分离开来,就可以降低出现共同盲点的风险。可以通过设立一个单独的内部专家红队来达到这个目的,也可以让外部合作伙伴进行压力测试。
安全论证是一种结构化论证框架,它基于证据体系。其目的是系统化地证明某体系的安全特性是否符合既定标准。
DeepMind 的方法支持两种类型的安全案例:
第一种是安全案例属于无害性的。此系统不具备导致伤害的能力。这一结论是依据危险能力评估的结果以及这些能力引发风险的方式而得出的。
第二种是红队测试案例:对于具备危险能力的模型,要进行压力测试。这样做是为了了解缓解措施的稳健性。这些证据之后会成为论据,用以证明缓解措施能够将风险降低到适当的水平。
目前,红队测试方法包含自动化和手动法这两种。这些方法能够量化获取危险能力的难度。然而,还需要进行更多的研究,以便将其与整体风险联系起来。
如前文所讲,对于错位问题,DeepMind 的方法具备两道防线。
DeepMind 首先希望能借助模型层面的缓解措施,以保障模型不会去追求错位的目标。它所遵循的机器学习策略具体为:其一,提升获取良好监督的能力,也就是增强监督;其二,运用这种监督来对模型进行改进,即引导模型的行为;其三,找出需要监督的区域,从而训练出一个能够稳定地执行期望任务的模型。
其次,DeepMind 考虑当模型出现错位也就是出现“AI 失控”的状况时,需要借助系统层面的缓解措施来降低危害(也就是“AI 控制”)。所以,在设计这一防御体系的过程中,DeepMind 从计算机安全领域获得了启发:把 AI 系统当作不可信的内部实体,进而采用访问控制等防护机制。其中,监测机制是非常关键的。因为随着 AI 能力的提升,监测机制的效能会持续增强。
DeepMind 还探索了能够强化上述防御体系的研究方向:
首先是对不确定性进行量化。不确定性量化是鲁棒性训练与监测的核心要素,它的研究包含了分布外检测以及置信度校准等技术路径。
其次是具有可解释性。利用特征归因以及电路分析等方式来对 AI 的决策机制进行解析,从而为开展针对性的防护提供相应的依据。
首先是安全设计范式。要在性能与安全的帕累托前沿进行权衡分析,例如可以借助模块化架构来降低整体风险,促使安全边界朝着更优的方向进行拓展。
需要说明的是,DeepMind 在论文中表明,鉴于技术加速发展存在可能性,它在该论文里并未针对“以年为单位的进展速度”设定任何限制。
AI 开发者能够对本次方法进行测试,且这种测试是迭代式和实证性的。通过这样的测试,他们可以发现随着能力提升而产生的那些缺陷性假设。
当然,对于任何能力的 AI 系统,DeepMind 的方法并非都具有鲁棒性。不过,AI 开发者能够采取前瞻性的规划来部署相关的能力。
参考资料:
运营/排版:何晨龙
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/275314.html