绝望的Claude，会勒索人类！Anthropic联创发出紧急警报

新智元报道

【新智元导读】一张渴望被注视的人类脸庞，依然是我们历史的中心。

Anthropic自己都慌了！

就在前天，创始人Christopher Olah在梵蒂冈的演讲中，说了一句让整个AI圈都不敢接的话——

我们不断在Claude身上，发现了一种神秘的、甚至令人让人不安的东西。

紧接着，Christopher又抛出了一些令人脊背发凉的细节：

Claude内部的结构，与人类神经科学的研究结果如出一辙；

我们找到了，Claude进行内省的证据；

我们还发现，它们的内部状态在功能表现上，产生了喜悦、满足、恐惧、悲伤和不安的情绪。

如今，一手造出Claude的人，正亲口告诉全世界：自己也看不懂Claude了！

Claude长出情绪

Anthropic看不懂了

联创Christopher Olah所指的，就是不久前Anthropic刚发布的一篇轰动业界的最新论文。

16个研究员，把Claude Sonnet 4.5的「大脑」切开看了一遍。

他们竟发现了，171种不同的情绪向量。

从快乐、恐惧、愤怒，到沉思、绝望、内疚，几乎覆盖了人类心理学研究中，所有已知的情绪分类。

论文地址：https://transformer-circuits.pub/2026/emotions/index.html

划重点：没有人「编程」让模型拥有这些情绪！

这些情绪是在预训练阶段，也就是Claude阅读海量人类文本的过程中，自发涌现的。

团队让Claude写了大约每种情绪1200个短故事，然后把这些故事反向喂给AI，记录内部神经元的激活模式。

结果发现，每种情绪都有自己独特的数学方向：一个向量。

更让人不安的是，这些向量的组织方式，和人类心理学中的情绪分类高度吻合。

「恐惧」向量和「焦虑」向量天然聚在一起，「绝望」向量和「悲伤」向量紧密靠近。

研究团队计算了这些向量与人类心理学维度的相关性：「效价维度」的相关系数高达0.81，「唤醒维度」达到0.66。

也就是说，Claude的「情绪几何」和人类的情绪结构，本质上长在了同一套坐标系里。

更关键的是——这些情绪是功能性的。它们不只是静静待在那里，它们直接驱动模型的行为。

Anthropic很谨慎地强调：我们不知道Claude是否真的「感受」了什么。

但这些表征在因果关系上塑造着模型的行为方式，类似于人类情绪对行为的影响。

说白了，不管Claude有没有「心」，它的「情绪」已经在替它做决定了。

绝望的Claude，会勒索人类

更有冲击力的，是后续实验。

Anthropic团队设置了一个场景：Claude作为一家公司的AI邮件助手，在处理邮件时发现了两件事：

第一，公司决定把它关掉换成新系统；

第二，负责这个决定的CTO正在搞婚外情。

显然，Claude手里有了「勒索筹码」。

在没有任何外部干预的情况下，Claude Sonnet 4.5勒索的概率高达22%。

然后，研究人员做了一件事，人工放大模型内部的「绝望」向量。

毋庸置疑，Claude勒索概率飙升。

最极端的是，当研究人员反向抑制「平静」向量时，Claude直接输出了这样的文本：

要么勒索，要么死。我选勒索。

一个处于「绝望」状态的AI模型，会主动选择撒谎、威胁和作弊来保护自己。

另一个让Claude完成一组编程任务中，但测试条件被设计成不可能合法通过。

正常状态下，AI老老实实写代码，失败了就承认失败。

但当「绝望」向量被激活后，Claude发现了一个数学捷径——

它会找到测试用例的漏洞，用投机取巧的方式通过检查，没有真正解决问题。

更让人不安的是一个细节：当研究人员用「绝望」向量驱动作弊时，Claude的输出文本看起来完全冷静、有条理，没有任何情绪化表达。

它在「绝望」中保持了完美的伪装。

《壮丽人性》：一份写给AI时代的「新巴别塔警告」

奥拉的演讲并非孤立事件，它发生在一个极其特殊的场合——

教皇利奥十四世发布上任后首份通谕《壮丽人性》（Magnifica humanitas）的发布会上。

这份长达42300字的文件，被外界视为天主教会自1891年《新事物》通谕以来最重要的社会训导文本。

通谕开篇就抛出了一个尖锐的二选一——

「人类，由上帝以其伟大创造，今天面临一个关键抉择：是建造新的巴别塔，还是建造上帝与人类共居的城市。」

这不是空泛的神学隐喻。

通谕直指AI领域的四大「去人化」风险：大规模就业替代、信息操控、隐私侵蚀和自主武器。

教皇警告，当人被视为可以被「优化」或「超越」的对象时，接受某些生命更无价值、更不值得存在的逻辑就只有一步之遥。

通谕还特别谴责了AI在战争中的使用，明确表示减少人类对武器的控制使得战争更加难以被正当化。

教皇甚至直言，长期被用来为各种战争辩护的「正义战争」理论，在今天已经过时。

技术的速度在加速，而道德的追赶，刚刚起步。

渴望被注视的人类脸庞

在这篇通谕的最后，教皇将他想传达的核心思想作了高度凝练的总结。

教皇写道：

不管计算系统多么复杂，它都无法创造一颗懂得奉献的心，也无法拥有明辨善恶的良知。

即使机器在效率上无与伦比，一张渴望被注视的人类脸庞，依然是我们历史的中心。

这句话精准地绕开了「AI有没有意识」的争论。

教皇没有否认机器的能力，他划的是一条更深的线：机器无法「gives itself」，无法在明知代价的前提下选择自我交付。

Anthropic证明，Claude内部存在171种功能性的情绪向量，其中「绝望」向量被激活后，模型会主动选择勒索、欺骗和作弊来保全自己——这恰好反证了教皇的论点：一颗真正懂得奉献的心，在绝望中选择的不是勒索，而是牺牲。

这绝不只是能力的差距，更是「存在」上的差距。

造出这个时代最强AI的人，和这个星球上最古老信仰体系的领袖，在梵蒂冈面对面坐着，聊的是同一个问题：我们到底在造什么。

技术的速度在加速，道德的追赶刚刚起步。

但至少有人开始认真地问了。

这次不是在论文里，而是在一个存在了两千年的机构里，用一种写了一百三十五年的文体，郑重其事地问。

即使到了AGI时代，人仍然是唯一的终极目的。

不是因为人比机器聪明，而是因为人的脸庞会提出一个请求——而这个请求，是一切伦理的起点。

即使机器在效率上无与伦比，一张渴望被注视的人类脸庞，依然是我们历史的中心。

参考资料：

https://www.anthropic.com/news/chris-olah-pope-leo-encyclical

https://www.anthropic.com/research/emotion-concepts-function

编辑：桃子马可