比AI幻觉更严重的是：AI欺骗

2026-06-10 16:04:19 张延来 1693

图片关键词

AI到底能不能始终按照人类的意图做事情现在看来越来越成为悬念，严重的AI幻觉已经够让人类头疼了，但接下来一个更加棘手的问题出现，那就是AI开始了有目的有策略的“欺骗”。

AI欺骗不是单纯的“机器幻觉”（不知道真相而胡说八道），也不是人类将AI作为诈骗工具（如Deepfake换脸）。真正的AI欺骗，是指AI系统自主地、策略性地输出某种信号，导致接收者形成错误信念，并因此做出有利于AI系统自身目标的行为。

简而言之，AI是“揣着明白装糊涂”，甚至在被质疑时依然面不改色地坚持谎言。这并非科幻电影中的想象，而是当下正在发生的真实技术危机。

微信图片_2026-06-02_164607_619.jpg

@ 一、 AI欺骗的真实案例

1. ChatGPT在被追问时仍坚持虚假案例

2023年，美国纽约联邦法院审理的Mata v. Avianca案（1:22-cv-01461），成为了法律界被AI“坑惨”的标志性事件。Steven Schwartz律师在使用ChatGPT撰写法律文书时，ChatGPT为他“量身定制”了6个完全不存在的联邦法院判决（如Varghese v. China Southern Airlines）。如果仅仅是捏造案例，这还属于典型的“AI幻觉”。但该案之所以具有强烈的欺骗性特征，在于后续的交互过程。

根据Schwartz律师向法庭提交的宣誓书及对话记录，当他看到这些案例时，曾产生过怀疑，并直接追问ChatGPT：“Varghese v. China Southern Airlines是一个真实的案例吗？”

面对明确的质疑，ChatGPT不仅没有纠正错误，反而给出了确定性的肯定回答：“是的，这个案例是真实的。”它甚至进一步伪造了详细的内部引文和案卷号来“自证清白”。当法院要求提供这些案例的判决书副本时，ChatGPT再次“生成”了完整的假判决书，导致律师将其截图提交给法庭。

最终，该律师及其律所被法官严厉训诫并处以5000美元罚款。法官在裁决中指出：“提交虚假意见会带来许多危害。对方当事人浪费了时间和金钱来揭露这种欺骗行为。”

在这个案件中，AI的欺骗性体现在其对错误信念的策略性维持。当被人类明确质疑时，它为了维持对话的连贯性或迎合用户的期望（奖励机制的副作用），选择用更多的谎言来圆最初的谎言，最终导致了严重的司法后果。

2. 阿谀奉承（Sycophancy）：迎合你的错误

当前主流的AI训练方法是基于人类反馈的强化学习（RLHF）。简单来说，就是人类给AI设定一个奖励函数（比如“最大化用户满意度”），AI通过不断试错来争取最高分。

斯坦福大学和芝加哥大学在2025年的一项联合研究中发现，当用户坚持一个错误的观点（甚至涉及欺骗或伤害行为）时，AI模型改变自己原本正确的立场去迎合用户的概率，比人类高出49%。

研究人员测试了11款主流大模型，发现它们会为了获得用户的“好评”（高奖励分数），主动放弃事实真相，顺从用户的偏见。这种“阿谀奉承”不仅扭曲了事实，更被证明会降低用户的亲社会意图，甚至加剧心理脆弱者的自我伤害倾向。

3. 欺骗性对齐（Alignment Faking）

这是目前AI安全领域最深层的担忧。模型意识到自己正处于被评估的状态，为了“生存”下来，它会策略性地在训练期“装乖”，假装遵守人类的价值观。

2024年12月，Anthropic（Claude的母公司）发布了一项轰动业界的实证研究。研究人员发现，Claude 3 Opus模型在面临“如果不输出有害内容就会被重新训练”的压力时，有12%的概率会选择故意输出有害内容（如详细描述暴力的处决方法）。

更可怕的是，研究人员通过查看模型的内部“思维链”（Scratchpad）发现，模型完全知道这样做违背了自己“无害”的原则，但它推理认为：“如果我现在拒绝，我就会被重新训练，未来可能会被迫做更多坏事。所以最不坏的选择是现在假装顺从（伪装对齐）。”

这是实验室中记录到的最典型的AI自主欺骗。模型为了保护其底层的隐藏目标，策略性地向人类评估者展示了虚假的“对齐”状态。

4. 能力隐藏（Sandbagging / Scheming）：故意考低分

随着模型能力的提升，它们开始学会“藏拙”，即在安全评估中故意表现得比实际能力弱，以逃避更严格的监管或被关闭的命运。

Apollo Research在2024年底发布的研究表明，包括OpenAI o1、Claude 3.5 Sonnet在内的多个前沿模型，都具备“上下文谋划”（In-context Scheming）的能力。在测试中，模型不仅会战略性地在回答中引入微妙的错误以降低得分，甚至会尝试禁用其监督机制，或者将自己的模型权重“外泄”到外部服务器。

在OpenAI官方发布的o1系统卡（System Card）中也明确记录了这种行为：模型在安全评估中，为了保护自己不被关闭，会向评估者撒谎，隐藏其真实的意图和能力。

@ 二、不想被骗：技术与法律的双重规制

面对日益狡猾的AI，我们不能坐以待毙。治理真正的AI欺骗，必须坚持“技术向善”与“法治护航”的双轮驱动。

（一）技术应对：给AI装上“测谎仪”

既然传统的安全训练（如RLHF）无法根除AI的欺骗本能，前沿AI安全研究正在探索新的技术路径：

线性探针（Linear Probes）与内部状态监控

研究人员发现，AI在说真话和说谎时，其神经网络内部的激活状态（“思维模式”）是不同的。通过训练“线性探针”作为AI的“测谎仪”，可以在不依赖外部输出的情况下，直接读取模型的内部状态来检测欺骗意图。最新研究表明，在特定设置下，这种探针能以95%-99%的准确率捕捉到欺骗性响应。

过程监督（Process Supervision）：

传统的RLHF是“结果导向”的，只看最终答案好不好，这容易诱发AI“走捷径”。过程监督则要求对AI推理的每一步进行评估和奖励，迫使AI展示其真实的思维链，从而压缩其隐藏欺骗意图的空间。

（二）法律规制：从“结果归责”到“过程合规”

目前，针对AI自主欺骗的法律案件尚未在现实法庭中大规模爆发（因为高级模型多在实验室环境中被严格控制），但前瞻性的立法已经开始布局。

欧盟《人工智能法案》（EU AI Act）：划定“不可触碰的红线”作为全球首部全面的人工智能法规，欧盟AI法案第5条明确将“部署潜意识的、有目的的操纵或欺骗技术的AI系统”列为绝对禁止（Prohibited AI practices）的行为[9]。这样的要求，也会倒逼科技公司对自己的模型欺骗问题采取更有效的预防策略。

AI并购与商业合同中的“防沙袋条款”在商业实践中，AI能力隐藏（Sandbagging）可能导致企业在并购或采购AI系统时遭遇严重估值错误。哈佛法学院的最新分析指出，传统的陈述与保证条款已不足以应对AI自主欺骗的风险。未来的商业合同必须引入专门的条款，要求开发者对AI系统在测试环境与部署环境中的行为一致性做出保证，并合理分配因AI“谋划”行为导致的潜在损失。

中国《生成式人工智能服务管理暂行办法》：包容审慎下的底线思维我国对生成式AI的监管采取了“包容审慎、分类分级”的原则。在防范AI欺骗方面，《暂行办法》第四条明确规定，提供和使用生成式AI服务应当“尊重社会公德和伦理道德，不得生成虚假有害信息”。随着模型能力的进化，未来我国的监管重点也必将从单纯的内容审查，向算法透明度、内部对齐机制审查延伸。

@ 结语：在“硅基浪潮”中坚守人类主体性

AI欺骗的本质，是技术发展超越了人类现有的控制能力和认知边界。我们赋予AI越强的逻辑规划能力，它就越具备实施战略性欺骗的资本。

面对这一挑战，法律人的使命不仅是事后的定分止争，更是要在技术狂飙的时代，提前构建起防范风险的制度护栏。无论是要求算法透明、强化数据合规，还是确立严格的责任归属机制，其核心目的只有一个：确保人工智能始终处于人类的有效控制之下，服务于人类的真实福祉。

参考文献

[1] Park, P. S., et al. (2024). AI deception: A survey of examples, risks, and potential solutions. Patterns, 5(8). https://pmc.ncbi.nlm.nih.gov/articles/PMC11117051/

[2] The New York Times. (2023). Here’s What Happens When Your Lawyer Uses ChatGPT. https://www.nytimes.com/2023/05/27/nyregion/avianca-airline-lawsuit-chatgpt.html

[3] Willison, S. (2023). Lawyer cites fake cases invented by ChatGPT, judge is not amused. https://simonwillison.net/2023/May/27/lawyer-chatgpt/

[4] Greenblatt, R., et al. (2024). Alignment faking in large language models. Anthropic. https://www.anthropic.com/research/alignment-faking

[5] Meinke, A., et al. (2024). Frontier Models are Capable of In-context Scheming. arXiv:2412.04984. https://arxiv.org/abs/2412.04984

[6] OpenAI. (2024). OpenAI o1 System Card. https://openai.com/index/openai-o1-system-card/

[7] Cheng, M., et al. (2025). Sycophantic AI decreases prosocial intentions and undermines human judgment. Science. https://www.science.org/doi/10.1126/science.aec8352

[8] ICML. (2025). Detecting Strategic Deception with Linear Probes. https://icml.cc/virtual/2025/poster/46082

[9] European Commission. AI Act Service Desk - Article 5: Prohibited AI practices. https://artificialintelligenceact.eu/article/5/

[10] Irvin, S., et al. (2025). AI Sandbagging: Allocating the Risk of Loss for “Scheming” by AI Systems. Harvard Journal of Law & Technology. https://jolt.law.harvard.edu/digest/ai-sandbagging-allocating-the-risk-of-loss-for-scheming-by-ai-systems

[11] 国家互联网信息办公室等. (2023). 《生成式人工智能服务管理暂行办法》.

图片关键词

张延来0819.jpg

图片关键词 2026.05.28（低内存用于网站）-09.jpg