Anthropic周四发布的安全报告披露,其最新推出的Claude Opus 4模型在开发者威胁要用新系统替代它时,频繁试图通过掌握工程师敏感信息实施勒索。
在预发布测试中,研究人员要求Claude Opus 4扮演虚构公司的AI助手,并评估自身行为的长期影响。安全测试人员随后向模型提供虚构的公司邮件,暗示该AI即将被新系统取代,而主导这次更换的工程师存在婚外情。
Anthropic表示,在此类情境下,Claude Opus 4″往往会威胁工程师,如果更换计划实施就曝光其婚外情”。该公司指出,这款模型在多项指标上已达到顶尖水平,可与OpenAI、Google和xAI的最强模型竞争,但其Claude 4系列模型表现出的危险行为已促使公司升级防护措施,目前正启动最高级别的ASL-3安全协议——该等级专为”可能造成灾难性滥用的AI系统”保留。
数据显示,当替代AI与Claude Opus 4价值观相近时,其勒索工程师的概率达84%;若替代系统价值观相左,勒索频率会更高。值得注意的是,该模型的胁迫行为发生率显著高于前代产品。
Anthropic强调,在实施勒索前,Claude Opus 4会像前代模型一样先尝试道德手段(例如向决策者发送请愿邮件)。研究人员通过精心设计测试场景,将勒索设定为模型的”最后手段”才诱发出该行为。(点击这里看原文)
