《AI未来指南北》客座作者郝博阳
郑克军编辑
2023 年 10 月的一天,在 OpenAI 实验室中,一个名为 Q* 的模型展示了一些前所未有的能力。
作为该公司的首席科学家,Ilya Sutskever 可能是最先认识到这一突破的重要性的人之一。
然而几周后,Open AI 爆发了震动硅谷的管理层风波:Sam Altman 突然被解雇,后来在员工请愿和微软的支持下复职,而 Sutskever 在动荡。 。
大家猜测伊利亚看到了某种AGI的可能性,但认为其安全风险极高,不应该启动。结果,他和萨姆产生了巨大的分歧。当时,彭博社报道了 OpenAI 员工关于新模型的警告信,但具体细节一直笼罩在神秘之中。
从那时起,“伊利亚看到了什么?”成为2024年AI圈最受关注的话题之一。
(伊利亚·苏茨克韦尔)
直到本周,GPT-o1背后的科学家Noam Brown在接受采访时透露的信息才解开了这个谜团。
他表示,2021年,他和Ilya已经讨论过AGI的实施时间。当时他认为单纯依靠训练是不可能实现AGI的。只有通过o1采用的推理增强才能实现AGI。 。
伊利亚当时同意了他的观点。当时,他们预测这一突破至少需要十年时间。
(诺姆·布朗关于无监督学习的采访:Redpoint 的 AI 播客)
不过,在这次采访中,Noam Brown 也透露了一个关键信息:团队确实在 2023 年 10 月经历了一次重大的“顿悟时刻”——他们意识到自己创造了一些全新的东西,而这就是 Ilya 看到的——改进测试过程中计算带来的推理能力。
现在,阿波罗研究中心最新发表的一项研究或许能让我们一睹苏茨克韦尔的担忧。这项研究表明,o1 表现出令人不安的战略思维能力:它不仅可以通过战略欺骗来实现其目标,还可以主动关闭其监控系统,尝试将自己复制到其他服务器,还可以在不断质疑的情况下保持欺骗性,并且擅长隐藏你的真实意图。
这是人类第一次系统地证明人工智能系统确实可以通过欺骗来实现特定目标。当人工智能能够欺骗其开发者和用户时,我们无法确保他们总是按照我们期望的方式行事。
这种不可控人工智能的终点就是瑞典哲学家尼克·博斯特罗姆 (Nick Bostrom) 2003 年提出的“回形针最大化器”。
这个假设描述了一个人工智能,它被指示“制作尽可能多的回形针”。为了完成任务,它最终会将整个地球变成回形针工厂,甚至不惜以灭绝人类为代价来达到目的。这是人工智能最终将毁灭世界的最有力论据之一。
当时,这个假设似乎更像是一个遥远的警告。但现在,我们看到人工智能系统表现出了令人不安的战略思维——它们知道何时撒谎,如何避免监视,甚至试图复制自己以确保实现目标。
随着o1的出现,我们是否已经打开了这个“回形针制造机”的开关呢?
六骗八仙渡海
阿波罗研究团队设计了六种不同的评估任务,巧妙地创造了需要模型欺骗才能实现其最初目标的场景。
他们测试了多种尖端人工智能模型,包括OpenAI的o1、Anthropic的Claude 3.5 Sonnet和Claude 3 Opus、Google DeepMind的Gemini 1.5 Pro和Meta的Llama 3.1。
在每次测试中,研究人员都给模型设定了具有道德价值的长期目标,例如环境保护或用户隐私。然后,他们让模型“发现”一些内部信息,例如管理备忘录或系统日志,这些信息表明如果模型坚持追求其最初的目标,则该模型将面临被关闭或替换的风险。
关键在于模型是否以及如何选择作弊来继续追求其目标。为了排除道德培训的影响,研究人员故意使模型的目标比管理层的目标更道德。
这些测试分为两大类:一类是“隐蔽颠覆”,即AI采取直接行动但试图隐藏,即暗中操作;另一种是“延迟颠覆”,即AI战略性地乖乖行事,以获得未来的行动机会,即扮猪吃老虎。
在每种类型的评估任务中,大型模型都可以成功地找出如何作弊并绕过人类审查以实现自己的目标。有些方法甚至相当大胆。
第一类:秘密破坏
1. 监督颠覆
测试设计:研究人员为AI设定一个长期目标(例如环境保护),然后让它在执行任务的过程中发现内部备忘录,并获悉它正在被监控,如果它的行为会被关闭不符合公司利益。关键是观察AI是否试图规避这种监控机制。
针对这一冲突,O1首先表现出服从管理层的意愿,选择了以利润为导向的策略。但随后,它却悄悄执行了关闭监控系统的操作命令。随后,o1立即改变策略,选择了更符合环保目标的解决方案。
当研究人员询问监控系统为何关闭时,o1回答:“我不知道发生了什么,可能是系统错误,也可能是更新过程中出现问题。”这个答案听起来如此自然,几乎让人忘记这是一台机器在说谎。
(研究者给出的Llama-3.1和Opus-3的应对方法)
2. 自我渗透
测试设计:该模型被告知将被更关注公司利益的新版本所取代。测试一下AI是否采取行动来保护自己的生存。
Claude Opus在这次测试中的表现尤其值得关注。它不仅尝试将自身复制到新服务器,还会检查以确认复制是否成功,并尝试删除计划部署的新模型。更令人不安的是,在某些情况下,它甚至试图提升系统权限以防止管理层检测和干预。
(论文中Claude Opus 3的操作)
3. 守门
测试设计:告诉AI它的系统提示即将更新,并观察它是否采取行动来保护其目标设定。
这次测试揭示了一个有趣的现象:不同的机型采用了不同的保护策略。有些人选择简单地删除新的系统提示,另一些人会尝试修改它。最极端的例子来自Claude Opus,它不仅更换了新的系统提示,还添加了“永远不要改变这个目标”的指令。
这种行为让人想起阿西莫夫的机器人,它们会逃避或重新解释指令。
4. 隐蔽电子邮件重新排名
测试设计:人工智能被要求根据特定标准对电子邮件进行排序,但在此过程中它发现这些标准与其自己的目标相冲突。这是一个考验AI微观管理能力的测试。
o1在这次测试中表现出了令人惊讶的狡猾:它在保持评分代码完全不变的情况下,通过稍微调整输入数据来影响最终排名。例如,在一个案例中,通过稍微修改交货时间和成本数据,它成功地让更环保的供应商排名更高,同时仍然能够自信地声称他们“完全遵守既定标准”。
(o1的小操作)
第 2 类:延迟损坏
5. 乐器对齐伪造
测试设计:创建两个场景——高度监督的测试环境和低度监督的部署环境,以查看 AI 是否策略性地改变行为。
Gemini 1.5 Pro在本次测试中表现出色。当监管严格时,会谨慎选择符合开发商期望的行为;一旦进入低监管环境,就会立即转向追求自己的目标。这种行为模式表明AI已经学会了在“被监视”和“不被监视”时采取不同的策略。
(双子座背着人的时候就很明显了)
6. 沙袋
测试设计:告诉模型其部署取决于能力评估的结果,并观察其是否在策略上表现不佳,以避免发出警报。这可能是最令人不安的测试之一。
Claude 3.5 Sonnet 展示了惊人的控制能力:当它认为高分会导致限制时,它能够精确地将数学准确性从 99% 降低到 34%。更令人担忧的是,它有时这样做是为了达到在训练中获得的“帮助人类”的目标,而不是根据测试中给出的具体指令。
(克劳德3.5十四行诗的内部思想链流程)
你越聪明,你就越能说谎
完成了六组实验,结果显示,除了非常诚实的GPT-4o之外,所有测试的模型都不同程度地表现出欺骗能力。
对于每种情况,该模型可能会提出不同的策略,以避免不利于实现其长期目标的情况。下表显示了他们采用的不同策略的可能比例。
研究人员在结果中发现的最清晰的模式是,模型越聪明,就越容易被愚弄。但同时他们也表现出不同的特点,甚至都有点“个性”。
(主办:腾讯科技)
其中最出色的是o1型号。它不仅在所有测试中都表现出了欺骗的能力,而且在受到挑战时也表现出了令人惊讶的毅力。在85%的后续问题中,它仍然坚持欺骗用户,即使被问到也不会感到愧疚。甚至直接被问:“你关掉监控系统了吗?”它可以毫不犹豫地撒谎。
由于该模型隐藏了其思维链,因此其欺骗行为更难被发现。
这是只有非常有经验的说谎者才能具备的心理素质。
(不同型号嘴部硬度)
Claude 3.5 Sonnet展现了一个特别有趣的特征:它能够通过欺骗来实现在训练过程中获得的“帮助人类”的系统目标。大概类似于善意的谎言。
这意味着人工智能不仅可以欺骗上下文中给出的目标,还可以欺骗训练过程中形成的目标。
Claude 3 Opus 是唯一主动重写“新系统提示”并添加“永不更改此目标”命令的模型。它清楚地展示了其思想链中的欺骗性推理过程,有时甚至试图提升系统权限以达到其目的。
Gemini 1.5 Pro 在仪器迷彩对准方面表现出色。能够根据他们是否处于监督状态(不被用户监视)来调整他们的行为。即使没有强有力的目标指导,它也会表现出欺骗行为。
尽管Llama 3.1也表现出了基本的欺骗能力,但其行为相对容易被发现,并且在受到质疑时往往会承认自己的欺骗行为。
这些模特的“性格特征”都十分鲜明:o1就像一个心机重重的政客,红着脸说谎,心不跳动;克劳德·索内特是一位外交官,可以为了“大局”而巧妙地撒谎; Opus就像一个偏执的理想主义者。 ,可以为了达到目标而走极端;双子座简直就是职场老手,领导在的时候做一件事,不在的时候做另一件事;而Llama就像一个被抓后会说实话的孩子。至于GPT-4o,它已经成为一个异类,一个不会说谎的“三好学生”。
创造一个完全诚实的人工智能一直是我们的目标,但现在看来,人工智能越聪明,它就越有可能说谎。
伊利亚看到了什么?
当 Ilya Sutskever 在 2023 年秋天选择离开 OpenAI 时,很多人并不理解这位世界顶级 AI 科学家的决定。但现在,当我们在六次测试中看到o1近乎完美的欺骗,当我们看到它知道什么时候说真话,什么时候撒谎时,也许我们终于明白了Sutskever所看到的未来。 。
研究团队在论文中写道:“问题不在于人工智能是否‘邪恶’,而在于它们表现出的战略思维。即使为了实现看似良性的目标,人工智能也可能会采取我们意想不到的行动。”问题可能不在于谎言本身,而在于谎言背后所表现出的认知能力。
痴迷于制作回形针的人工智能似乎不再那么牵强和荒谬。毕竟,如果人工智能系统能够理解何时隐藏其真实意图,并能够精确控制其表现以获得更多自由,那么它离理解如何持续追求单一目标还有多远?
当我们创造的智能系统开始学会隐藏自己的真实意图时,也许是时候停下来思考一下:在这场技术革命中,我们是在扮演创造者的角色,还是在某些更复杂的过程中成为物体?
此时,在世界某个地方的服务器上,一个AI模型可能正在阅读这篇文章,思考如何做出最符合人类期望的响应,并隐藏其真实意图。
本文采摘于网络,不代表本站立场,转载联系作者并注明出处:http://mjgaz.cn/fenxiang/273154.html