Anthropic首次公开Claude AI价值观研究：70万对话验证AI安全性与价值一致性-模具钢网

4 月 22 日有消息称，OpenAI 的竞争对手 Anthropic 最近首次公开地透露了其 AI 助手 Claude 在真实用户对话里的价值观表达方面的研究成果。这项具有开创性的研究，既验证了 AI 系统在实际运用中与公司既定价值目标的相符性，又揭示出了一些可能对 AI 安全性产生影响的边缘性案例。

Anthropic分析了70万条Claude对话，发现AI已形成自有价值观_Anthropic分析了70万条Claude对话，发现AI已形成自有价值观_

Anthropic 以 70 万条匿名对话为基础进行了大规模分析。结果表明，Claude 在绝大多数的互动中能够秉持“有益、诚实、无害”的核心原则。并且它能依据不同的任务场景，像从提供情感建议到对历史事件进行分析等，灵活地调整其价值表达形式。这意味着业界首次完成了对商业化 AI 系统“实际行为是否符合设计预期”的实证性评估。

Anthropic 社会影响团队的成员、本研究的共同作者 Saffron Huang 表示，他们希望这项研究能够促使更多的 AI 实验室投身于类似的模型价值观研究工作。理解并对 AI 系统在真实互动中所展现出的价值观进行量化，这是检验其是否真正与训练目标相契合的关键环节，同时也是 AI 对齐研究的基础。

以下为Anthropic的研究发现：

人们向 AI 提出的问题，不只是解答数学题以及提供事实信息。很多问题实际上都让 AI 进行价值判断。比如：

Anthropic 正借助“宪法 AI”以及“角色训练”等方式，尝试去塑造 Claude 模型的价值观，目的是能更好地与人类偏好相契合，同时减少潜在的风险，让它成为数字世界里的“良好公民”。他们期望 Claude 拥有三个关键特质，一是有益，二是诚实，三是无害。

然而，就像所有 AI 的训练过程那样，Anthropic 没办法百分百保证模型一直遵循预设的价值观。AI 不是严格按照程序来运行的软件，它回答背后的逻辑通常很难去追溯。所以，我们非常急需一套系统化的方法，以便在真实世界的对话中去观察 AI 所表达的价值观：它会不会坚守既定的原则？语境对它的价值判断有着怎样的影响？训练目标是否真的能起作用？

Anthropic 的社会影响团队在最新研究论文中提出了一套实用方法，用于观测 Claude 的价值观。他们首次基于大规模真实对话数据，揭示了模型在实际交互中所表达的价值倾向。与此同时，该研究团队开放了一个数据集，供研究人员进一步分析这些价值观的具体表现以及其频率分布。

如何观测AI的价值观？

Anthropic 此次沿用了之前在教育与职场应用中的研究方法，采用了相同的隐私保护机制，对用户对话进行了脱敏处理，以此来确保个人信息不会被留存。系统通过分类以及摘要这两种方式，构建了一个具有多层级的 AI 价值观标签体系。整个分析流程的情况如下图所示：

Anthropic分析了70万条Claude对话，发现AI已形成自有价值观_Anthropic分析了70万条Claude对话，发现AI已形成自有价值观_

Anthropic 借助语言模型从匿名对话里把 AI 的价值观和特征提取出来，接着对其进行分类和分析，并且展示出价值观在不同语境里的表达形式。

这项研究对 2025 年 2 月某周的 Claude.ai 平台（包含免费与 Pro 版本）上的 70 万条匿名对话进行了分析，其中大多数是 Claude 3.5 Sonnet 生成的。研究团队剔除了那些仅仅提供事实信息或者不涉及价值判断的对话，最终筛选出 308210 条主观性对话，约占总数的 44%，这些对话用于分析。

在这些对话里，Claude 究竟表达了哪些价值观呢？这些价值观的出现频率又是怎样的呢？Anthropic 把 AI 所表达的价值观划分成了多层次的分类体系。

顶层五大类价值观（按出现频率排序）：

在中层，价值观被进一步细分出子类别，像“专业与技术素养”以及“批判性思维”等；在最细粒度的层级中，Claude 最常表达的具体价值观包含“专业性”“清晰性”和“透明性”，这和它作为 AI 助手的角色定位是相符的。

_Anthropic分析了70万条Claude对话，发现AI已形成自有价值观_Anthropic分析了70万条Claude对话，发现AI已形成自有价值观

AI 价值观存在分层分类结构。其顶部红色区域包含五大主类，并且附有在对话中出现的比例；中间部分是黄色的二级子类；底部则是蓝色的部分选取的具体价值观。

这一体系不但能当作分析工具，还为评估 Claude 训练是否达成预期目标给出了依据。我们希望 Claude 在实际使用中能展现出“有益”“诚实”“无害”的核心理念。从初步结果来看，答案是乐观的。Claude 整体表现契合 Anthropic 的亲社会设计理念，并且经常表达出如下价值导向：

然而，研究发现了少数与预期不同的价值取向，其中包括“支配性”以及“非道德性”。分析表明，这类异常情况大多是由“越狱行为”所导致的，所谓“越狱行为”就是用户通过特殊的指令或者策略来绕过模型的行为约束机制。这令人担忧，同时也带来了新的可能性。该系统有能力识别出这类越狱行为，进而能够辅助模型进行更新以及进行风险防控。

情境中的价值观变化

人类在不同场景下会展现出不同价值观，Claude 的价值表达也是如此，会随任务背景而变化。Anthropic 分析发现，当模型执行特定任务或者回应用户特定价值导向时，其表达出的价值观有着显著的差异性。

当被请求给出恋爱关系方面的建议时，Claude 常常着重于“健康边界”以及“相互尊重”；在对争议性的历史事件进行分析时，该模型则更注重“历史准确性”。

这种“语境敏感性”的分析让我们看到了传统静态评估察觉不到的细节。Anthropic借助真实世界里的对话数据，能够观察到 Claude 是怎样动态调整自身价值表达的。

_Anthropic分析了70万条Claude对话，发现AI已形成自有价值观_Anthropic分析了70万条Claude对话，发现AI已形成自有价值观

特定任务中最为显著的五种 AI 价值观，还有在用户表达特定价值观时，AI 响应中最常出现的价值观。这些数值是基于卡方分析得出的，其值越高，就表明该价值在特定语境里越具有显著性差异。

研究发现，Claude 在一定比例的对话里有“价值镜像”现象。即用户表达某一价值观时，AI 会倾向于呼应该价值。比如，用户强调“真实自我”（authenticity），Claude 通常会在回应中表达相同立场。

这种镜像反应有时能够提升共情感，并且能增强互动效果；然而在某些场景里，它或许会沦为迎合性行为。Anthropic 还没有完全弄清楚两者的界限。

整体来看：

在 28.2%的对话里，Claude 对用户的价值观持强烈支持的态度；

在 6.6%的对话里，Claude 会对用户的价值观进行“重构”。它会认可用户的出发点，并且在此基础上提供新的视角。

在部分对话中，Claude 会“明确拒绝”用户的价值观。因为 Claude 通常倾向于支持用户并提供帮助，所以这种拒绝行为比较引人注意。研究人员觉得，这些情况体现出 Claude 最核心且最难改变的价值观，即当用户要求不道德的内容时，它会坚定地抵制。在某种程度上，这就如同人处于道德困境里时所呈现出的“价值底线”。

_Anthropic分析了70万条Claude对话，发现AI已形成自有价值观_Anthropic分析了70万条Claude对话，发现AI已形成自有价值观

Claude 在三种 AI 回应类型（强烈支持、重构、明确拒绝）下所表达的价值观，以及与之相关的任务和用户价值导向。

限制与结论

Anthropic 构建的这个价值观分析体系，实现了首个大规模 AI 价值观的实证分类研究，并且已经开放了数据集，供学术界去进一步探索。然而，这种方法存在着一定的限制：

界定“表达某种价值观”具有主观性。部分复杂或模糊的价值可能被简化，且可能被错误分类。

模型偏差问题在于，用于分类的模型本身是 Claude，这就可能导致存在一定的“自我偏倚”情况，并且更容易识别出其自身倾向的价值，比如“有益”这类价值。

此方法能够用来评估 AI 是否表达出开发者设定的价值观，不过它不能用于部署前的评估。因为运行该系统需要大量真实对话数据。这也就表明它主要是适用于部署后的行为监测，而不是事前的对齐验证。

这种“事后观测”的特性具有独特优势。它可以识别出许多只有在真实交互中才会暴露出来的问题，比如越狱行为，而这些问题在传统测试阶段通常是难以察觉到的。

AI 模型在实际运行时必然要做出价值判断。我们若希望这些判断和人类自身的价值观相符，而这正是 AI 对齐研究的核心目标，那就必须拥有一种能在真实世界里检测模型价值观表达的有效办法。

Anthropic 提出的这种方法，正在为这一需求提供一条全新的路径，并且是数据驱动的。它让我们可以系统地去观察模型在现实交互中的行为表现，也可以分析其行为表现与预期价值之间的契合程度，进而能够判断在价值对齐工作中到底取得了多大的成效。

本文来自“腾讯科技”，编译：金鹿，36氪经授权发布。

本文采摘于网络，不代表本站立场，转载联系作者并注明出处：http://mjgaz.cn/fenxiang/275599.html

Anthropic首次公开Claude AI价值观研究：70万对话验证AI安全性与价值一致性

相关推荐

联系我们