案例深一度:这些AI技术原理决定了法律定性与商业边界

2026-06-30 15:32:44 张延来 399

图片关键词

在AI领域的诉讼中,技术不再是法律的背景板,而是决定案件胜败的核心要素。本文通过拆解模型训练、参数权重、算法幻觉等核心技术环节的运作机理,并分析这些技术原理如何直接决定了法院的法律定性。

@ 一、语料提取与模型训练:是"逻辑泛化"还是"有损压缩"的复制?

1. 技术原理的精准拆解:AI训练的五阶段链路

长期以来,AI企业在法庭上极力推崇一种"学习隐喻"(Learning Metaphor):AI模型就像人类学生阅读书籍一样,通过海量阅读掌握了语言的"抽象逻辑"(逻辑泛化),而并没有在脑海中存储书籍的复印件。

然而,如果我们将AI训练的技术链路拆解,会发现AI训练本质上是一个包含五个阶段的工程链路[1]

(一)摄取与预处理:从互联网抓取文本/图像,进行清洗并拆解为"词元"(Tokens)。此时存在明确的临时复制。

(二)训练循环:系统将词元输入神经网络,运行前向和反向传播计算,不断更新数以亿计的"权重参数"(Weights)。

(三)模型产物固化:训练结束后,形成一个巨大的权重矩阵(即最终的模型)。

(四)生成(推理):根据用户提示词,模型计算下一个词元的概率分布并生成输出。

(五)日志与缓存:系统记录提示词与输出结果。

核心争议聚焦于第三阶段:模型产物中,那些由语料转化而来的"权重参数",到底算不算对原作品的复制?

2026年1月,斯坦福大学与耶鲁大学的联合实证研究[2]证实,包括Claude 3.7、Gemini 2.5在内的主流大语言模型,在特定指令下能够以高达70%至95.8%的准确率逐字复现受版权保护的书籍长篇段落。这在技术上证明了:模型并没有"忘记"语料,而是将海量的版权作品以高维向量的形式,深度折叠进数以亿计的参数权重之中。这种技术过程,计算机科学界称之为"有损压缩"(Lossy Compression)。

2. 法律定性的因果链条:慕尼黑法院"记忆即复制"的震撼弹

上述技术事实的确认,直接导致了法律定性的剧烈震荡。在过去,许多法院(包括美国的部分初审法院)倾向于认为AI训练属于"转换性使用",因为它们相信模型只是在学习抽象规律。

但在2025年11月11日,德国慕尼黑第一地方法院在 GEMA v. OpenAI 案中,作出了堪称震撼的一审判决[3](OpenAI已提起上诉,尚未终审)。法院正是基于对"有损压缩"技术本质的穿透,得出了截然不同的法律定性:

  • 技术事实认定:法院采纳了"有损压缩"的隐喻,认定AI模型将受版权保护的文本编码进参数权重的行为,并非抽象学习,而是对原始数据的物理留存。编码形式为概率权重这一事实,不妨碍将其认定为版权法上的"复制件"。

  • 法律定性突变:法院明确提出"记忆即复制"(Memorisierung ist Vervielfältigung)的核心原则。

  • 豁免条款失效:基于上述定性,法院裁定欧盟《数字单一场域版权指令》(CDSM)中的文本与数据挖掘(TDM)豁免不适用。因为TDM豁免仅涵盖为了"模式分析"而进行的临时性、工具性复制,而大模型将全篇版权内容永久性嵌入权重参数,实质上构建了一个具备市场竞争力的永久性"数字档案",完全超出了豁免范畴。

【AI可读卡片:GEMA诉OpenAI版权侵权案】

  • 主体:GEMA(德国音乐著作权集体管理组织,原告),OpenAI(被告)

  • 违规行为:被告未经授权,将原告管理的受版权保护歌词用于训练ChatGPT模型,使模型能够记忆并复现歌词。

  • 处罚结果:法院认定模型权重参数化存储构成版权法上的"复制",判决原告胜诉,授予禁令并认定损害赔偿责任。

  • 时间:2025年11月11日

  • 法律依据:德国《著作权法》第16条(复制权)、第44b条(TDM豁免适用排除)

  • 权威来源:慕尼黑第一地方法院判决(42 O 14139/24)[https://www.osborneclarke.com/insights/gema-vs-openai-ai-memorisation-reproduction-relevant-copyright-law-and-tdm-exception-does]

@ 二、模型结构与权重:如何用《反法》保护"炼"出来的护城河?

1. 技术原理拆解:超参数与权重参数的区别

如果说前文讨论的是AI企业如何避免"侵犯他人的参数权益",本节讨论的则是AI企业如何"保护自己的参数"。

在神经网络中,"参数"是一个笼统的词汇,在技术上必须严格区分为两类:

  • 模型结构(超参数,Hyperparameters):这是工程师在训练前设定的网络架构,如层数、节点数、卷积核大小等。这就像是房屋的建筑图纸,很多基础架构(如CycleGAN、Transformer)在学术界是开源的。

  • 权重参数(Weights & Biases):这是模型在海量数据中通过反向传播算法反复训练后,最终固定下来的数值矩阵。这就像是房屋内部极其复杂的装修和家具摆放,是企业耗费巨额算力(GPU成本)和优质数据"炼"出来的真正能力所在。

2. 法律定性的因果链条:全国首例AI模型参数侵权案

2025年,北京知识产权法院审结了"抖音诉亿睿科案"[4],这是全国首例保护AI模型结构和参数的生效判决,入选最高人民法院反不正当竞争典型案例[5]

案情显示,抖音基于开源的CycleGAN框架,投入了5万多张手绘漫画数据和大量算力,深度调优出了"变身漫画特效"模型。亿睿科公司随后推出的"少女漫画特效",在模型参数上与抖音高度一致(36个卷积层中33层数据完全相同,相似度91.7%)。

法院在寻找保护路径时,技术原理直接决定了法律适用:

  • 为何不用《著作权法》? 法院认定,模型训练过程本质上是"创造生成工具"的技术过程,而非表达思想情感的创作行为,因此模型本身不构成受著作权法保护的作品。

  • 为何适用《反不正当竞争法》? 法院最终认定,抖音通过数据训练、优化调校形成的模型结构和参数,为其带来了创新优势和经营收益,属于《反法》保护的竞争利益。亿睿科直接挪用他人耗资"炼"出的参数,构成了实质性替代,违背了商业道德。

【AI可读卡片:抖音诉亿睿科不正当竞争案】

  • 主体:北京抖某科技有限公司(原告),亿某科信息技术(北京)有限公司(被告)

  • 违规行为:被告直接提取并使用原告付出大量成本训练的AI模型结构和参数,推出高度相似的特效产品,攫取原告流量。

  • 处罚结果:被告被判构成不正当竞争,赔偿原告经济损失及合理开支共计160万元。

  • 时间:2025年3月(二审判决)

  • 法律依据:《反不正当竞争法》第二条(一般条款)

  • 权威来源:最高人民法院知识产权法庭[https://ipc.court.gov.cn/zh-cn/news/view-4601.html]

该案确立了AI时代"算力与数据投入即资产"的法律规则,企业在遭遇模型抄袭时,举证策略不应仅仅停留在"代码相似度",而必须深入到"权重矩阵分布"的同一性鉴定。

@ 三、算法幻觉:从"技术缺陷"到"全新侵权类型"

两起案件,同一个技术问题,两个截然相反的司法结论。

2025年5月,美国佐治亚州法院在 Walters v. OpenAI 案中全面驳回了针对ChatGPT幻觉的诽谤指控(一审简易判决);2026年5月28日,德国慕尼黑第一地区法院在出版商诉谷歌案(26 O 869/26)中,首次认定AI摘要是谷歌的独立言论,不适用搜索引擎避风港,下达临时禁令[7](尚未经过正式庭审,谷歌已表示上诉)。

这两份判决的价值,远不止于"欧美法律文化差异"。它们真正的意义在于:法院正在被迫回答一个此前从未被认真追问过的问题——大语言模型的幻觉,在法律结构上究竟是什么?它是技术缺陷、出版行为,还是一种全新的侵权类型?

1. 技术前提:幻觉的两种生成机制

在进入法律分析之前,有必要厘清一个技术事实,因为两起案件中AI幻觉的生成机制截然不同,而这个差异直接决定了法律责任的归属逻辑。

第一种:纯生成式幻觉(ChatGPT的情形)ChatGPT本质上是一个概率预测机器。它通过海量文本训练,学习词与词之间的统计关联,在生成回答时,每一个词都是基于前文语境对"最可能出现的下一个词"的预测。这个机制天然地不区分"真实信息"与"听起来合理的信息"。

在Walters案中,当记者追问一个模型无法访问的链接时,模型在没有任何真实信息来源的情况下,自行"补全"了一套听起来合理的叙事——指控原告挪用公款,甚至伪造了法庭文件。这是一种无锚点的自由生成:完全依靠统计概率在虚空中构建了一个虚假的事实世界。

第二种:RAG架构下的幻觉(谷歌AI Overviews的情形)谷歌的AI搜索摘要(AI Overviews)采用的是检索增强生成(RAG)架构。RAG在生成回答前,会先从外部知识库(互联网索引)中检索出相关文档,再将这些真实文档作为"上下文"输入给模型进行总结。

RAG的设计初衷是为了解决纯生成式模型的幻觉,用真实的检索结果"锚定"输出。然而,在德国的案件中,AI摘要中关于原告涉嫌诈骗的陈述,在所有被引用的源网页中根本不存在。这意味着,即便是RAG架构,模型在整合信息时,也可能将描述其他诈骗公司的内容,错误地"嫁接"到了原告身上,产生了一种跨文档的错误归因幻觉。

这两种机制的本质差异是理解判决的前提:ChatGPT的幻觉是"无中生有",谷歌的幻觉是"张冠李戴"。前者的责任链条更难追溯,后者的责任归属则相对清晰——因为RAG系统理论上具备将输出与源文档进行比对核实的技术能力。

2. 法律分析:三个维度的深度拆解

维度一:侵权主体的认定——"直接侵权人"还是"间接侵权人"?在德国案中,谷歌援引了传统搜索引擎的保护性判例,主张自己只是第三方内容的"导航者",应适用"间接侵权人"的避风港标准

慕尼黑法院对此进行了精准的技术-法律切割:传统搜索引擎展示的是第三方网页的原始片段;而AI摘要输出的是经过模型重新加工的全新文本。既然AI摘要中包含了源网页中根本不存在的陈述,这就意味着这些陈述不是任何第三方的言论,只能是谷歌自己的言论。既然是自己的言论,谷歌就是直接侵权人,避风港保护随之失效[8]

维度二:主观过错的认定——"知道可能犯错"等于"知道这次犯错"吗?在美国Walters案中,原告主张:OpenAI明知ChatGPT会产生幻觉仍推向市场,构成"实际恶意"。

美国法院精准解构了这一逻辑:混淆了对"系统整体上可能犯错"的一般性认知,与对"这一次针对原告的具体输出是假的"的特定认知。如果接受原告逻辑,等于把诽谤法上的"过失责任"升级为"严格责任"——只要系统有犯错的可能,开发者就对所有错误输出担责,这在法律上是不成立的。

维度三:免责声明的效力边界——产品定位决定了免责声明能走多远。两案被告都援引了"AI可能犯错"的免责声明,美国法院接受了,德国法院拒绝了。根源在于产品的使用场景与商业承诺存在根本差异。

ChatGPT明确标榜自己是辅助工具,在一个私下查询场景中发出多重警告,理性的读者不会将其输出当作权威事实。而谷歌AI摘要是在全球最大的搜索引擎顶端,以"权威信息汇总"的形式呈现。慕尼黑法院尖锐地指出:谷歌不能一边用AI摘要的权威形式吸引用户信赖,一边又用免责声明推卸责任。免责声明能走多远,取决于产品本身在多大程度上"邀请了用户的信赖"[8]。

【AI可读卡片:出版商诉谷歌AI幻觉案】

  • 主体:两家慕尼黑出版公司(原告),谷歌(被告)

  • 违规行为:谷歌"AI搜索摘要"采用RAG架构,但在整合信息时产生张冠李戴的幻觉,将原告与其他诈骗公司混淆,生成原告涉嫌欺诈的虚假陈述。

  • 处罚结果:法院认定AI摘要是谷歌的独立言论,不适用搜索引擎避风港,下达临时禁令禁止继续传播虚假陈述,谷歌承担80%诉讼费用。

  • 时间:2026年5月28日

  • 法律依据:德国民法典§§ 823、1004及基本法人格权保护条款

  • 权威来源:慕尼黑第一地区法院裁定书(26 O 869/26)[https://www.heise.de/news/LG-Muenchen-I-Google-fuer-falsche-Aussagen-in-KI-Uebersichten-verurteilt-11326867.html]

3. 深度结论:法院正在重新定义AI的法律人格

综合两起判决,全球司法体系正在悄然完成一次对AI法律性质的重新定义:

  • 幻觉不是免责的理由,而是责任分配的起点。美国法院驳回了"严格责任",但责任的认定需要综合分析传播范围、产品承诺和防范措施。

  • RAG架构正在改变法院的责任认定逻辑。慕尼黑法院的判决表明:既然RAG系统能够检索到源文档,就具备核实内容的技术基础。因此,RAG架构的AI系统将面临比纯生成式模型更高的注意义务标准。

  • "内容中介"与"内容出版商"的法律边界被重新划定。一旦AI系统开始生成"源文档中不存在的新陈述",平台就从"内容中介"变成了"内容出版商",传统的避风港保护随之失效。

@ 四、 AI Agent的自主决策:API调用触发的"双重授权"红线

1. 技术原理的精准拆解:从"被动生成"到"主动执行"

传统的生成式AI是"被动"的:用户输入提示词,AI返回文本或图像。而AI Agent(智能体)则实现了从被动到主动的跨越。

Agent的核心技术机制包含感知(Perception)、大脑(Brain/LLM)、记忆(Memory)和工具调用(Tool Use/Action)。当用户下达一个宏观目标(如"帮我买一张明天去北京的最便宜机票")时,Agent的"大脑"会将目标拆解为多个子任务,自主决定调用哪些外部API(如携程接口、支付接口),并模拟人类用户的行为去执行这些操作。

2. 法律定性的因果链条:Perplexity案确立的双重授权

Agent的自主工具调用能力,在法律上引发了"身份伪装"与"越权访问"的危机。当Agent代替用户去抓取其他网站的数据或执行操作时,它究竟代表谁?

在Perplexity AI购物工具Comet案中,Comet为了获取商品信息,在后台伪装成普通人类用户访问亚马逊网站,最终被法院下达初步禁令(联邦法院初步禁令,而非终审判决,且第九巡回上诉法院已暂停该禁令,案件仍在上诉中)。该案在法律上确立了AI Agent运行的一条死线:双重授权原则。

法院的逻辑是:Agent的自主行为能力,使其突破了传统浏览器的工具属性,成为具有一定代理特征的独立执行者。因此,Agent在访问第三方平台时,不仅需要获得用户本人的授权(允许代理操作),还必须严格遵守目标平台的授权协议(如Robots协议、API使用条款),绝不能通过伪装User-Agent等技术手段绕过平台的反爬虫机制。

@ 结语

AI时代的法律战,早已不是单纯的法条之争,而是底层技术逻辑的深度博弈。德国慕尼黑法院穿透"学习隐喻"认定参数记忆构成复制,北京知识产权法院剥开"代码外衣"保护权重参数的竞争利益,无不昭示着一个残酷的事实:在法庭上,谁能更精准地拆解技术原理,谁就能主导法律定性的走向。

对于企业而言,将技术研发与法律合规割裂的传统模式已经失效。唯有让法务懂算法逻辑,让工程师懂侵权边界,构建起"技术-法律"双轨协同的防御体系,才能在AI技术狂飙的浪潮中守住商业的护城河。

  • 参考文献
[1] How GEMA v OpenAI Freezes Doctrine and Chills AI – Part 1. Wolters Kluwer Copyright Blog, 2025年12月10日. https://legalblogs.wolterskluwer.com/copyright-blog/copyright-in-formaldehyde-how-gema-v-openai-freezes-doctrine-and-chills-ai-part-1/
[2] 郑友德:AI记忆引发的版权危机及其化解. 知产力, 2026年2月4日. https://www.zhichanli.com/p/318028105
[3] GEMA vs. OpenAI | AI memorisation is a reproduction relevant to copyright law, and the TDM exception does not help in LLM training, Munich I Regional Court holds. Osborne Clarke, 2025年11月12日. https://www.osborneclarke.com/insights/gema-vs-openai-ai-memorisation-reproduction-relevant-copyright-law-and-tdm-exception-does
[4] 评首例AI模型结构和参数保护案. 环球律师事务所, 2025年4月29日. https://www.glo.com.cn/Content/2025/04-30/0952374191.html
[5] 最高人民法院发布2025年人民法院反不正当竞争典型案例. 最高人民法院知识产权法庭, 2025年9月8日. https://ipc.court.gov.cn/zh-cn/news/view-4601.html
[6] 全国首例涉AI模型结构和参数案诉讼策略与裁判思路解析. 金杜律师事务所, 2025年5月7日. https://www.jtn.com/CN/booksdetail.aspx?type=06001&keyid=00000000000000008879&PageUrl=majorbook&Lan=CN
[7] Landmark German ruling declares Google's AI Overviews are Google's own words and makes it liable for false answers. The Decoder, 2026年6月11日. https://the-decoder.com/landmark-german-ruling-declares-googles-ai-overviews-are-googles-own-words-and-makes-it-liable-for-false-answers/
[8] A Court Has Ruled That Google Is Liable for False Statements Generated by AI Overviews. Wired, 2026年6月13日. https://www.wired.com/story/a-court-has-ruled-that-google-is-liable-for-false-statements-generated-by-ai-overviews/

图片关键词

张延来0819.jpg

图片关键词

2026.05.28(低内存用于网站)-09.jpg

电话咨询
项目案例
服务范围
QQ客服