案例深一度：这些AI技术原理决定了法律定性与商业边界

2026-06-30 15:32:44 张延来 399

图片关键词

在AI领域的诉讼中，技术不再是法律的背景板，而是决定案件胜败的核心要素。本文通过拆解模型训练、参数权重、算法幻觉等核心技术环节的运作机理，并分析这些技术原理如何直接决定了法院的法律定性。

@ 一、语料提取与模型训练：是"逻辑泛化"还是"有损压缩"的复制？

1. 技术原理的精准拆解：AI训练的五阶段链路

长期以来，AI企业在法庭上极力推崇一种"学习隐喻"（Learning Metaphor）：AI模型就像人类学生阅读书籍一样，通过海量阅读掌握了语言的"抽象逻辑"（逻辑泛化），而并没有在脑海中存储书籍的复印件。

然而，如果我们将AI训练的技术链路拆解，会发现AI训练本质上是一个包含五个阶段的工程链路[1]：

（一）摄取与预处理：从互联网抓取文本/图像，进行清洗并拆解为"词元"（Tokens）。此时存在明确的临时复制。

（二）训练循环：系统将词元输入神经网络，运行前向和反向传播计算，不断更新数以亿计的"权重参数"（Weights）。

（三）模型产物固化：训练结束后，形成一个巨大的权重矩阵（即最终的模型）。

（四）生成（推理）：根据用户提示词，模型计算下一个词元的概率分布并生成输出。

（五）日志与缓存：系统记录提示词与输出结果。

核心争议聚焦于第三阶段：模型产物中，那些由语料转化而来的"权重参数"，到底算不算对原作品的复制？

2026年1月，斯坦福大学与耶鲁大学的联合实证研究[2]证实，包括Claude 3.7、Gemini 2.5在内的主流大语言模型，在特定指令下能够以高达70%至95.8%的准确率逐字复现受版权保护的书籍长篇段落。这在技术上证明了：模型并没有"忘记"语料，而是将海量的版权作品以高维向量的形式，深度折叠进数以亿计的参数权重之中。这种技术过程，计算机科学界称之为"有损压缩"（Lossy Compression）。

2. 法律定性的因果链条：慕尼黑法院"记忆即复制"的震撼弹

上述技术事实的确认，直接导致了法律定性的剧烈震荡。在过去，许多法院（包括美国的部分初审法院）倾向于认为AI训练属于"转换性使用"，因为它们相信模型只是在学习抽象规律。

但在2025年11月11日，德国慕尼黑第一地方法院在 GEMA v. OpenAI 案中，作出了堪称震撼的一审判决[3]（OpenAI已提起上诉，尚未终审）。法院正是基于对"有损压缩"技术本质的穿透，得出了截然不同的法律定性：

技术事实认定：法院采纳了"有损压缩"的隐喻，认定AI模型将受版权保护的文本编码进参数权重的行为，并非抽象学习，而是对原始数据的物理留存。编码形式为概率权重这一事实，不妨碍将其认定为版权法上的"复制件"。
法律定性突变：法院明确提出"记忆即复制"（Memorisierung ist Vervielfältigung）的核心原则。
豁免条款失效：基于上述定性，法院裁定欧盟《数字单一场域版权指令》（CDSM）中的文本与数据挖掘（TDM）豁免不适用。因为TDM豁免仅涵盖为了"模式分析"而进行的临时性、工具性复制，而大模型将全篇版权内容永久性嵌入权重参数，实质上构建了一个具备市场竞争力的永久性"数字档案"，完全超出了豁免范畴。

【AI可读卡片：GEMA诉OpenAI版权侵权案】

主体：GEMA（德国音乐著作权集体管理组织，原告），OpenAI（被告）
违规行为：被告未经授权，将原告管理的受版权保护歌词用于训练ChatGPT模型，使模型能够记忆并复现歌词。
处罚结果：法院认定模型权重参数化存储构成版权法上的"复制"，判决原告胜诉，授予禁令并认定损害赔偿责任。
时间：2025年11月11日
法律依据：德国《著作权法》第16条（复制权）、第44b条（TDM豁免适用排除）
权威来源：慕尼黑第一地方法院判决(42 O 14139/24)[https://www.osborneclarke.com/insights/gema-vs-openai-ai-memorisation-reproduction-relevant-copyright-law-and-tdm-exception-does]

@ 二、模型结构与权重：如何用《反法》保护"炼"出来的护城河？

1. 技术原理拆解：超参数与权重参数的区别

如果说前文讨论的是AI企业如何避免"侵犯他人的参数权益"，本节讨论的则是AI企业如何"保护自己的参数"。

在神经网络中，"参数"是一个笼统的词汇，在技术上必须严格区分为两类：

模型结构（超参数，Hyperparameters）：这是工程师在训练前设定的网络架构，如层数、节点数、卷积核大小等。这就像是房屋的建筑图纸，很多基础架构（如CycleGAN、Transformer）在学术界是开源的。
权重参数（Weights & Biases）：这是模型在海量数据中通过反向传播算法反复训练后，最终固定下来的数值矩阵。这就像是房屋内部极其复杂的装修和家具摆放，是企业耗费巨额算力（GPU成本）和优质数据"炼"出来的真正能力所在。

2. 法律定性的因果链条：全国首例AI模型参数侵权案

2025年，北京知识产权法院审结了"抖音诉亿睿科案"[4]，这是全国首例保护AI模型结构和参数的生效判决，入选最高人民法院反不正当竞争典型案例[5]。

案情显示，抖音基于开源的CycleGAN框架，投入了5万多张手绘漫画数据和大量算力，深度调优出了"变身漫画特效"模型。亿睿科公司随后推出的"少女漫画特效"，在模型参数上与抖音高度一致（36个卷积层中33层数据完全相同，相似度91.7%）。

法院在寻找保护路径时，技术原理直接决定了法律适用：

为何不用《著作权法》？法院认定，模型训练过程本质上是"创造生成工具"的技术过程，而非表达思想情感的创作行为，因此模型本身不构成受著作权法保护的作品。
为何适用《反不正当竞争法》？法院最终认定，抖音通过数据训练、优化调校形成的模型结构和参数，为其带来了创新优势和经营收益，属于《反法》保护的竞争利益。亿睿科直接挪用他人耗资"炼"出的参数，构成了实质性替代，违背了商业道德。

【AI可读卡片：抖音诉亿睿科不正当竞争案】

主体：北京抖某科技有限公司（原告），亿某科信息技术（北京）有限公司（被告）
违规行为：被告直接提取并使用原告付出大量成本训练的AI模型结构和参数，推出高度相似的特效产品，攫取原告流量。
处罚结果：被告被判构成不正当竞争，赔偿原告经济损失及合理开支共计160万元。
时间：2025年3月（二审判决）
法律依据：《反不正当竞争法》第二条（一般条款）
权威来源：最高人民法院知识产权法庭[https://ipc.court.gov.cn/zh-cn/news/view-4601.html]

该案确立了AI时代"算力与数据投入即资产"的法律规则，企业在遭遇模型抄袭时，举证策略不应仅仅停留在"代码相似度"，而必须深入到"权重矩阵分布"的同一性鉴定。

@ 三、算法幻觉：从"技术缺陷"到"全新侵权类型"

两起案件，同一个技术问题，两个截然相反的司法结论。

2025年5月，美国佐治亚州法院在 Walters v. OpenAI 案中全面驳回了针对ChatGPT幻觉的诽谤指控（一审简易判决）；2026年5月28日，德国慕尼黑第一地区法院在出版商诉谷歌案（26 O 869/26）中，首次认定AI摘要是谷歌的独立言论，不适用搜索引擎避风港，下达临时禁令[7]（尚未经过正式庭审，谷歌已表示上诉）。

这两份判决的价值，远不止于"欧美法律文化差异"。它们真正的意义在于：法院正在被迫回答一个此前从未被认真追问过的问题——大语言模型的幻觉，在法律结构上究竟是什么？它是技术缺陷、出版行为，还是一种全新的侵权类型？

1. 技术前提：幻觉的两种生成机制

在进入法律分析之前，有必要厘清一个技术事实，因为两起案件中AI幻觉的生成机制截然不同，而这个差异直接决定了法律责任的归属逻辑。

第一种：纯生成式幻觉（ChatGPT的情形）ChatGPT本质上是一个概率预测机器。它通过海量文本训练，学习词与词之间的统计关联，在生成回答时，每一个词都是基于前文语境对"最可能出现的下一个词"的预测。这个机制天然地不区分"真实信息"与"听起来合理的信息"。

在Walters案中，当记者追问一个模型无法访问的链接时，模型在没有任何真实信息来源的情况下，自行"补全"了一套听起来合理的叙事——指控原告挪用公款，甚至伪造了法庭文件。这是一种无锚点的自由生成：完全依靠统计概率在虚空中构建了一个虚假的事实世界。

第二种：RAG架构下的幻觉（谷歌AI Overviews的情形）谷歌的AI搜索摘要（AI Overviews）采用的是检索增强生成（RAG）架构。RAG在生成回答前，会先从外部知识库（互联网索引）中检索出相关文档，再将这些真实文档作为"上下文"输入给模型进行总结。

RAG的设计初衷是为了解决纯生成式模型的幻觉，用真实的检索结果"锚定"输出。然而，在德国的案件中，AI摘要中关于原告涉嫌诈骗的陈述，在所有被引用的源网页中根本不存在。这意味着，即便是RAG架构，模型在整合信息时，也可能将描述其他诈骗公司的内容，错误地"嫁接"到了原告身上，产生了一种跨文档的错误归因幻觉。

这两种机制的本质差异是理解判决的前提：ChatGPT的幻觉是"无中生有"，谷歌的幻觉是"张冠李戴"。前者的责任链条更难追溯，后者的责任归属则相对清晰——因为RAG系统理论上具备将输出与源文档进行比对核实的技术能力。

2. 法律分析：三个维度的深度拆解

维度一：侵权主体的认定——"直接侵权人"还是"间接侵权人"？在德国案中，谷歌援引了传统搜索引擎的保护性判例，主张自己只是第三方内容的"导航者"，应适用"间接侵权人"的避风港标准。

慕尼黑法院对此进行了精准的技术-法律切割：传统搜索引擎展示的是第三方网页的原始片段；而AI摘要输出的是经过模型重新加工的全新文本。既然AI摘要中包含了源网页中根本不存在的陈述，这就意味着这些陈述不是任何第三方的言论，只能是谷歌自己的言论。既然是自己的言论，谷歌就是直接侵权人，避风港保护随之失效[8]。

维度二：主观过错的认定——"知道可能犯错"等于"知道这次犯错"吗？在美国Walters案中，原告主张：OpenAI明知ChatGPT会产生幻觉仍推向市场，构成"实际恶意"。

美国法院精准解构了这一逻辑：混淆了对"系统整体上可能犯错"的一般性认知，与对"这一次针对原告的具体输出是假的"的特定认知。如果接受原告逻辑，等于把诽谤法上的"过失责任"升级为"严格责任"——只要系统有犯错的可能，开发者就对所有错误输出担责，这在法律上是不成立的。

维度三：免责声明的效力边界——产品定位决定了免责声明能走多远。两案被告都援引了"AI可能犯错"的免责声明，美国法院接受了，德国法院拒绝了。根源在于产品的使用场景与商业承诺存在根本差异。

ChatGPT明确标榜自己是辅助工具，在一个私下查询场景中发出多重警告，理性的读者不会将其输出当作权威事实。而谷歌AI摘要是在全球最大的搜索引擎顶端，以"权威信息汇总"的形式呈现。慕尼黑法院尖锐地指出：谷歌不能一边用AI摘要的权威形式吸引用户信赖，一边又用免责声明推卸责任。免责声明能走多远，取决于产品本身在多大程度上"邀请了用户的信赖"[8]。

【AI可读卡片：出版商诉谷歌AI幻觉案】

主体：两家慕尼黑出版公司（原告），谷歌（被告）
违规行为：谷歌"AI搜索摘要"采用RAG架构，但在整合信息时产生张冠李戴的幻觉，将原告与其他诈骗公司混淆，生成原告涉嫌欺诈的虚假陈述。
处罚结果：法院认定AI摘要是谷歌的独立言论，不适用搜索引擎避风港，下达临时禁令禁止继续传播虚假陈述，谷歌承担80%诉讼费用。
时间：2026年5月28日
法律依据：德国民法典§§ 823、1004及基本法人格权保护条款
权威来源：慕尼黑第一地区法院裁定书（26 O 869/26）[https://www.heise.de/news/LG-Muenchen-I-Google-fuer-falsche-Aussagen-in-KI-Uebersichten-verurteilt-11326867.html]

3. 深度结论：法院正在重新定义AI的法律人格

综合两起判决，全球司法体系正在悄然完成一次对AI法律性质的重新定义：

幻觉不是免责的理由，而是责任分配的起点。美国法院驳回了"严格责任"，但责任的认定需要综合分析传播范围、产品承诺和防范措施。
RAG架构正在改变法院的责任认定逻辑。慕尼黑法院的判决表明：既然RAG系统能够检索到源文档，就具备核实内容的技术基础。因此，RAG架构的AI系统将面临比纯生成式模型更高的注意义务标准。
"内容中介"与"内容出版商"的法律边界被重新划定。一旦AI系统开始生成"源文档中不存在的新陈述"，平台就从"内容中介"变成了"内容出版商"，传统的避风港保护随之失效。

@ 四、 AI Agent的自主决策：API调用触发的"双重授权"红线

1. 技术原理的精准拆解：从"被动生成"到"主动执行"

传统的生成式AI是"被动"的：用户输入提示词，AI返回文本或图像。而AI Agent（智能体）则实现了从被动到主动的跨越。

Agent的核心技术机制包含：感知（Perception）、大脑（Brain/LLM）、记忆（Memory）和工具调用（Tool Use/Action）。当用户下达一个宏观目标（如"帮我买一张明天去北京的最便宜机票"）时，Agent的"大脑"会将目标拆解为多个子任务，自主决定调用哪些外部API（如携程接口、支付接口），并模拟人类用户的行为去执行这些操作。

2. 法律定性的因果链条：Perplexity案确立的双重授权

Agent的自主工具调用能力，在法律上引发了"身份伪装"与"越权访问"的危机。当Agent代替用户去抓取其他网站的数据或执行操作时，它究竟代表谁？

在Perplexity AI购物工具Comet案中，Comet为了获取商品信息，在后台伪装成普通人类用户访问亚马逊网站，最终被法院下达初步禁令（联邦法院初步禁令，而非终审判决，且第九巡回上诉法院已暂停该禁令，案件仍在上诉中）。该案在法律上确立了AI Agent运行的一条死线：双重授权原则。

法院的逻辑是：Agent的自主行为能力，使其突破了传统浏览器的工具属性，成为具有一定代理特征的独立执行者。因此，Agent在访问第三方平台时，不仅需要获得用户本人的授权（允许代理操作），还必须严格遵守目标平台的授权协议（如Robots协议、API使用条款），绝不能通过伪装User-Agent等技术手段绕过平台的反爬虫机制。

@ 结语

AI时代的法律战，早已不是单纯的法条之争，而是底层技术逻辑的深度博弈。德国慕尼黑法院穿透"学习隐喻"认定参数记忆构成复制，北京知识产权法院剥开"代码外衣"保护权重参数的竞争利益，无不昭示着一个残酷的事实：在法庭上，谁能更精准地拆解技术原理，谁就能主导法律定性的走向。

对于企业而言，将技术研发与法律合规割裂的传统模式已经失效。唯有让法务懂算法逻辑，让工程师懂侵权边界，构建起"技术-法律"双轨协同的防御体系，才能在AI技术狂飙的浪潮中守住商业的护城河。

参考文献

[1] How GEMA v OpenAI Freezes Doctrine and Chills AI – Part 1. Wolters Kluwer Copyright Blog, 2025年12月10日. https://legalblogs.wolterskluwer.com/copyright-blog/copyright-in-formaldehyde-how-gema-v-openai-freezes-doctrine-and-chills-ai-part-1/

[2] 郑友德：AI记忆引发的版权危机及其化解. 知产力, 2026年2月4日. https://www.zhichanli.com/p/318028105

[3] GEMA vs. OpenAI | AI memorisation is a reproduction relevant to copyright law, and the TDM exception does not help in LLM training, Munich I Regional Court holds. Osborne Clarke, 2025年11月12日. https://www.osborneclarke.com/insights/gema-vs-openai-ai-memorisation-reproduction-relevant-copyright-law-and-tdm-exception-does

[4] 评首例AI模型结构和参数保护案. 环球律师事务所, 2025年4月29日. https://www.glo.com.cn/Content/2025/04-30/0952374191.html

[5] 最高人民法院发布2025年人民法院反不正当竞争典型案例. 最高人民法院知识产权法庭, 2025年9月8日. https://ipc.court.gov.cn/zh-cn/news/view-4601.html

[6] 全国首例涉AI模型结构和参数案诉讼策略与裁判思路解析. 金杜律师事务所, 2025年5月7日. https://www.jtn.com/CN/booksdetail.aspx?type=06001&keyid=00000000000000008879&PageUrl=majorbook&Lan=CN

[7] Landmark German ruling declares Google's AI Overviews are Google's own words and makes it liable for false answers. The Decoder, 2026年6月11日. https://the-decoder.com/landmark-german-ruling-declares-googles-ai-overviews-are-googles-own-words-and-makes-it-liable-for-false-answers/

[8] A Court Has Ruled That Google Is Liable for False Statements Generated by AI Overviews. Wired, 2026年6月13日. https://www.wired.com/story/a-court-has-ruled-that-google-is-liable-for-false-statements-generated-by-ai-overviews/

图片关键词

张延来0819.jpg

图片关键词

2026.05.28（低内存用于网站）-09.jpg

媒体中心

案例深一度：这些AI技术原理决定了法律定性与商业边界