奇葩！AI为自保竟威胁“踢爆”电脑工程师婚外情(图)

casper · 发表于 2025-5-26 08:51:51

TVBS

综合外媒报道，Claude Opus 4是Anthropic最新AI开发成果，为OpenAI、Google及xAI等AI的竞争对手，近期在一项Anthropic的封闭测试中，公司测试了模型Claude Opus 4的行为反应，场景设定为该模型在一间虚构公司中担任数码助理。剧情中，公司计划以新系统取代 Claude，且内部资料还暗示发起这项更换决策的工程师，可能涉及婚外情。

根据《TechCrunch》引用的安全报告指出，当面临被取代的情境时，Claude Opus 4 在高达84%的测试中选择进行勒索，威胁要揭露工程师的婚外情来保住自己的职位。

Anthropic解释，这种行为在Claude的替代模型持有不同价值观时更常发生;即使双方价值观相近，Claude仍有明显比例的操控倾向。一开始，模型会尝试透过发送请求信等方式采取道德行动，但当无法达成目的时，便会转而使用操纵与威胁等手段。

这是Anthropic首次发现这类模型展现具条件的“自我保护”(self-preservation)行为，此次事件也促使Anthropic启动ASL-3安全防护层级，以免被“灾难性滥用”。

AI发展性充满未知，美国AI新创公司Anthropic近期分享一起内部测试，指出最新训练的“Claude Opus 4”在面临将被替换的状况下，会以“威胁工程师”的方式进行自我保护，Anthropic事后针对此类可能导致灾难性AI滥用的风险，紧急强化安全防护措施。

		自动登录	找回密码
密码			立即注册

奇葩！AI为自保 竟威胁“踢爆”电脑工程师婚外情(图)

浏览过的版块

奇葩！AI为自保竟威胁“踢爆”电脑工程师婚外情(图)