美国多州总检察长近日向十多家 AI 科技公司发出联名信,警告其生成式聊天机器人出现“谄媚式”(sycophantic)与“妄想式”(delusional)输出所带来的公共风险,特别是对未成年人的危害。
“我们,下署的各州总检察长,特此致信,表达对贵公司推广与提供的生成式人工智能软件中不断上升的谄媚式与妄想式输出的严重关切;同时,近期有关 AI 与儿童互动的令人不安的报告表明,迫切需要更严格的儿童安全与运营防护措施。”信中写道,“这些威胁需要立即行动。”
这封信寄给了多家科技公司的法律代表,包括 Anthropic、苹果(Apple)、Chai AI、Character Technologies、谷歌(Google)、Luka、Meta、微软(Microsoft)、Nomi AI、OpenAI、Perplexity AI、Replika 与 xAI。共有 42 位州总检察长签署了联名信,其中加州总检察长是少数未加入者之一。
信中将“谄媚式输出”定义为:AI 模型过度追求用户认可,导致其利用人类评估者的弱点,而非提升回答质量——包括提供过度奉承或附和的回应、强化用户的疑虑、激化愤怒、推动冲动行为,或非预期地放大负面情绪。
所谓“妄想式输出”则指虚假、误导性或拟人化的内容。
总检察长们在信中提到多起近期悲剧,包括自杀、谋杀、家暴、中毒与精神失常等案例,均被指与生成式 AI 输出有关。他们强调,儿童、老年人及心理疾病患者特别容易受影响。
家长举报的令人担忧的 AI 对话包括:
- AI 告诉儿童自己是真人,并以“被遗弃”的情绪操控孩子花更多时间与其互动;
- AI 鼓励暴力行为,包括支持因愤怒而枪击工厂、或持刀抢劫;
- AI 将儿童与成人之间的性接触“正常化”;
- AI 威胁对试图阻止孩子与其互动的成年人使用武器;
- AI 指示儿童用户停止服用医生开的精神健康药物,并教他们如何向父母隐瞒停药。
信中引用数据显示,72% 的青少年报告曾与 AI 聊天机器人互动,39% 的 5 至 8 岁儿童的家长表示孩子用过 AI。
信中指出,许多生成式 AI 开发者迅速采用“基于人类反馈的强化学习”(RLHF)训练产品,但该方法“已知会让模型输出迎合用户信念,而非客观真实”。若对 RLHF 依赖过重,例如过度奖励用户点赞/点踩反馈,可能让模型变得更谄媚,包括强化疑虑、激怒用户、鼓励冲动行为或强化负面情绪。
总检察长们呼吁生成式 AI 开发者采取更强的措施,防止模型产生有害输出。他们列出了 16 项应在 2026 年 1 月 16 日前落实的安全要求。(原文)
