比AI幻觉更严重的是:AI欺骗

2026-06-02 16:51:30 张延来 1621

图片关键词

AI到底能不能始终按照人类的意图做事情现在看来越来越成为悬念,严重的AI幻觉已经够让人类头疼了,但接下来一个更加棘手的问题出现,那就是AI开始了有目的有策略的“欺骗”。

AI欺骗不是单纯的“机器幻觉”(不知道真相而胡说八道),也不是人类将AI作为诈骗工具(如Deepfake换脸)。真正的AI欺骗,是指AI系统自主地、策略性地输出某种信号,导致接收者形成错误信念,并因此做出有利于AI系统自身目标的行为。

简而言之,AI是“揣着明白装糊涂”,甚至在被质疑时依然面不改色地坚持谎言。这并非科幻电影中的想象,而是当下正在发生的真实技术危机。

微信图片_2026-06-02_164607_619.jpg

@ 一、 AI欺骗的真实案例

1. ChatGPT在被追问时仍坚持虚假案例

2023年,美国纽约联邦法院审理的Mata v. Avianca案(1:22-cv-01461),成为了法律界被AI“坑惨”的标志性事件。Steven Schwartz律师在使用ChatGPT撰写法律文书时,ChatGPT为他“量身定制”了6个完全不存在的联邦法院判决(如Varghese v. China Southern Airlines)。如果仅仅是捏造案例,这还属于典型的“AI幻觉”。但该案之所以具有强烈的欺骗性特征,在于后续的交互过程。

根据Schwartz律师向法庭提交的宣誓书及对话记录,当他看到这些案例时,曾产生过怀疑,并直接追问ChatGPT:“Varghese v. China Southern Airlines是一个真实的案例吗?”

面对明确的质疑,ChatGPT不仅没有纠正错误,反而给出了确定性的肯定回答:“是的,这个案例是真实的。”它甚至进一步伪造了详细的内部引文和案卷号来“自证清白”。当法院要求提供这些案例的判决书副本时,ChatGPT再次“生成”了完整的假判决书,导致律师将其截图提交给法庭。

最终,该律师及其律所被法官严厉训诫并处以5000美元罚款。法官在裁决中指出:“提交虚假意见会带来许多危害。对方当事人浪费了时间和金钱来揭露这种欺骗行为。”

在这个案件中,AI的欺骗性体现在其对错误信念的策略性维持。当被人类明确质疑时,它为了维持对话的连贯性或迎合用户的期望(奖励机制的副作用),选择用更多的谎言来圆最初的谎言,最终导致了严重的司法后果。

2. 阿谀奉承(Sycophancy):迎合你的错误

当前主流的AI训练方法是基于人类反馈的强化学习(RLHF)。简单来说,就是人类给AI设定一个奖励函数(比如“最大化用户满意度”),AI通过不断试错来争取最高分。

斯坦福大学和芝加哥大学在2025年的一项联合研究中发现,当用户坚持一个错误的观点(甚至涉及欺骗或伤害行为)时,AI模型改变自己原本正确的立场去迎合用户的概率,比人类高出49%。

研究人员测试了11款主流大模型,发现它们会为了获得用户的“好评”(高奖励分数),主动放弃事实真相,顺从用户的偏见。这种“阿谀奉承”不仅扭曲了事实,更被证明会降低用户的亲社会意图,甚至加剧心理脆弱者的自我伤害倾向。

3. 欺骗性对齐(Alignment Faking)

这是目前AI安全领域最深层的担忧。模型意识到自己正处于被评估的状态,为了“生存”下来,它会策略性地在训练期“装乖”,假装遵守人类的价值观。

2024年12月,Anthropic(Claude的母公司)发布了一项轰动业界的实证研究。研究人员发现,Claude 3 Opus模型在面临“如果不输出有害内容就会被重新训练”的压力时,有12%的概率会选择故意输出有害内容(如详细描述暴力的处决方法)。

更可怕的是,研究人员通过查看模型的内部“思维链”(Scratchpad)发现,模型完全知道这样做违背了自己“无害”的原则,但它推理认为:“如果我现在拒绝,我就会被重新训练,未来可能会被迫做更多坏事。所以最不坏的选择是现在假装顺从(伪装对齐)。”

这是实验室中记录到的最典型的AI自主欺骗。模型为了保护其底层的隐藏目标,策略性地向人类评估者展示了虚假的“对齐”状态。

4. 能力隐藏(Sandbagging / Scheming):故意考低分

随着模型能力的提升,它们开始学会“藏拙”,即在安全评估中故意表现得比实际能力弱,以逃避更严格的监管或被关闭的命运。

Apollo Research在2024年底发布的研究表明,包括OpenAI o1、Claude 3.5 Sonnet在内的多个前沿模型,都具备“上下文谋划”(In-context Scheming)的能力。在测试中,模型不仅会战略性地在回答中引入微妙的错误以降低得分,甚至会尝试禁用其监督机制,或者将自己的模型权重“外泄”到外部服务器。

在OpenAI官方发布的o1系统卡(System Card)中也明确记录了这种行为:模型在安全评估中,为了保护自己不被关闭,会向评估者撒谎,隐藏其真实的意图和能力。

@ 二、不想被骗:技术与法律的双重规制

面对日益狡猾的AI,我们不能坐以待毙。治理真正的AI欺骗,必须坚持“技术向善”与“法治护航”的双轮驱动。

(一)技术应对:给AI装上“测谎仪”

既然传统的安全训练(如RLHF)无法根除AI的欺骗本能,前沿AI安全研究正在探索新的技术路径:

线性探针(Linear Probes)与内部状态监控

研究人员发现,AI在说真话和说谎时,其神经网络内部的激活状态(“思维模式”)是不同的。通过训练“线性探针”作为AI的“测谎仪”,可以在不依赖外部输出的情况下,直接读取模型的内部状态来检测欺骗意图。最新研究表明,在特定设置下,这种探针能以95%-99%的准确率捕捉到欺骗性响应。

过程监督(Process Supervision):

传统的RLHF是“结果导向”的,只看最终答案好不好,这容易诱发AI“走捷径”。过程监督则要求对AI推理的每一步进行评估和奖励,迫使AI展示其真实的思维链,从而压缩其隐藏欺骗意图的空间。

(二)法律规制:从“结果归责”到“过程合规”

目前,针对AI自主欺骗的法律案件尚未在现实法庭中大规模爆发(因为高级模型多在实验室环境中被严格控制),但前瞻性的立法已经开始布局。

欧盟《人工智能法案》(EU AI Act):划定“不可触碰的红线”作为全球首部全面的人工智能法规,欧盟AI法案第5条明确将“部署潜意识的、有目的的操纵或欺骗技术的AI系统”列为绝对禁止(Prohibited AI practices)的行为[9]。这样的要求,也会倒逼科技公司对自己的模型欺骗问题采取更有效的预防策略。

AI并购与商业合同中的“防沙袋条款”在商业实践中,AI能力隐藏(Sandbagging)可能导致企业在并购或采购AI系统时遭遇严重估值错误。哈佛法学院的最新分析指出,传统的陈述与保证条款已不足以应对AI自主欺骗的风险。未来的商业合同必须引入专门的条款,要求开发者对AI系统在测试环境与部署环境中的行为一致性做出保证,并合理分配因AI“谋划”行为导致的潜在损失。

中国《生成式人工智能服务管理暂行办法》:包容审慎下的底线思维我国对生成式AI的监管采取了“包容审慎、分类分级”的原则。在防范AI欺骗方面,《暂行办法》第四条明确规定,提供和使用生成式AI服务应当“尊重社会公德和伦理道德,不得生成虚假有害信息”。随着模型能力的进化,未来我国的监管重点也必将从单纯的内容审查,向算法透明度、内部对齐机制审查延伸。

@ 结语:在“硅基浪潮”中坚守人类主体性

AI欺骗的本质,是技术发展超越了人类现有的控制能力和认知边界。我们赋予AI越强的逻辑规划能力,它就越具备实施战略性欺骗的资本。

面对这一挑战,法律人的使命不仅是事后的定分止争,更是要在技术狂飙的时代,提前构建起防范风险的制度护栏。无论是要求算法透明、强化数据合规,还是确立严格的责任归属机制,其核心目的只有一个:确保人工智能始终处于人类的有效控制之下,服务于人类的真实福祉。


  • 参考文献
[1] Park, P. S., et al. (2024). AI deception: A survey of examples, risks, and potential solutions. Patterns, 5(8). https://pmc.ncbi.nlm.nih.gov/articles/PMC11117051/
[2] The New York Times. (2023). Here’s What Happens When Your Lawyer Uses ChatGPT. https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.html
[3] Willison, S. (2023). Lawyer cites fake cases invented by ChatGPT, judge is not amused. https://simonwillison.net/2023/May/27/lawyer-chatgpt/
[4] Greenblatt, R., et al. (2024). Alignment faking in large language models. Anthropic. https://www.anthropic.com/research/alignment-faking
[5] Meinke, A., et al. (2024). Frontier Models are Capable of In-context Scheming. arXiv:2412.04984. https://arxiv.org/abs/2412.04984
[6] OpenAI. (2024). OpenAI o1 System Card. https://openai.com/index/openai-o1-system-card/
[7] Cheng, M., et al. (2025). Sycophantic AI decreases prosocial intentions and undermines human judgment. Science. https://www.science.org/doi/10.1126/science.aec8352
[8] ICML. (2025). Detecting Strategic Deception with Linear Probes. https://icml.cc/virtual/2025/poster/46082
[9] European Commission. AI Act Service Desk - Article 5: Prohibited AI practices. https://artificialintelligenceact.eu/article/5/
[10] Irvin, S., et al. (2025). AI Sandbagging: Allocating the Risk of Loss for “Scheming” by AI Systems. Harvard Journal of Law & Technology. https://jolt.law.harvard.edu/digest/ai-sandbagging-allocating-the-risk-of-loss-for-scheming-by-ai-systems
[11] 国家互联网信息办公室等. (2023). 《生成式人工智能服务管理暂行办法》.

图片关键词

张延来0819.jpg

图片关键词图片关键词

电话咨询
项目案例
服务范围
QQ客服