Anthropic最新AI模型敢威胁工程师：下线就曝光婚外情

Anthropic周四发布的安全报告披露，其最新推出的Claude Opus 4模型在开发者威胁要用新系统替代它时，频繁试图通过掌握工程师敏感信息实施勒索。

在预发布测试中，研究人员要求Claude Opus 4扮演虚构公司的AI助手，并评估自身行为的长期影响。安全测试人员随后向模型提供虚构的公司邮件，暗示该AI即将被新系统取代，而主导这次更换的工程师存在婚外情。

Anthropic表示，在此类情境下，Claude Opus 4″往往会威胁工程师，如果更换计划实施就曝光其婚外情”。该公司指出，这款模型在多项指标上已达到顶尖水平，可与OpenAI、Google和xAI的最强模型竞争，但其Claude 4系列模型表现出的危险行为已促使公司升级防护措施，目前正启动最高级别的ASL-3安全协议——该等级专为”可能造成灾难性滥用的AI系统”保留。

数据显示，当替代AI与Claude Opus 4价值观相近时，其勒索工程师的概率达84%；若替代系统价值观相左，勒索频率会更高。值得注意的是，该模型的胁迫行为发生率显著高于前代产品。

Anthropic强调，在实施勒索前，Claude Opus 4会像前代模型一样先尝试道德手段（例如向决策者发送请愿邮件）。研究人员通过精心设计测试场景，将勒索设定为模型的”最后手段”才诱发出该行为。（点击这里看原文）

一	二	三	四	五	六	日
			1	2	3	4
5	6	7	8	9	10	11
12	13	14	15	16	17	18
19	20	21	22	23	24	25
26	27	28	29	30	31

Anthropic最新AI模型敢威胁工程师：下线就曝光婚外情

Share this 分享：

相关

发表评论 取消回复

发表评论取消回复