案例深一度:这些AI技术原理决定了法律定性与商业边界

在AI领域的诉讼中,技术不再是法律的背景板,而是决定案件胜败的核心要素。本文通过拆解模型训练、参数权重、算法幻觉等核心技术环节的运作机理,并分析这些技术原理如何直接决定了法院的法律定性。
@ 一、语料提取与模型训练:是"逻辑泛化"还是"有损压缩"的复制?
1. 技术原理的精准拆解:AI训练的五阶段链路
长期以来,AI企业在法庭上极力推崇一种"学习隐喻"(Learning Metaphor):AI模型就像人类学生阅读书籍一样,通过海量阅读掌握了语言的"抽象逻辑"(逻辑泛化),而并没有在脑海中存储书籍的复印件。
然而,如果我们将AI训练的技术链路拆解,会发现AI训练本质上是一个包含五个阶段的工程链路[1]:
(一)摄取与预处理:从互联网抓取文本/图像,进行清洗并拆解为"词元"(Tokens)。此时存在明确的临时复制。
(二)训练循环:系统将词元输入神经网络,运行前向和反向传播计算,不断更新数以亿计的"权重参数"(Weights)。
(三)模型产物固化:训练结束后,形成一个巨大的权重矩阵(即最终的模型)。
(四)生成(推理):根据用户提示词,模型计算下一个词元的概率分布并生成输出。
(五)日志与缓存:系统记录提示词与输出结果。
核心争议聚焦于第三阶段:模型产物中,那些由语料转化而来的"权重参数",到底算不算对原作品的复制?
2026年1月,斯坦福大学与耶鲁大学的联合实证研究[2]证实,包括Claude 3.7、Gemini 2.5在内的主流大语言模型,在特定指令下能够以高达70%至95.8%的准确率逐字复现受版权保护的书籍长篇段落。这在技术上证明了:模型并没有"忘记"语料,而是将海量的版权作品以高维向量的形式,深度折叠进数以亿计的参数权重之中。这种技术过程,计算机科学界称之为"有损压缩"(Lossy Compression)。
2. 法律定性的因果链条:慕尼黑法院"记忆即复制"的震撼弹
上述技术事实的确认,直接导致了法律定性的剧烈震荡。在过去,许多法院(包括美国的部分初审法院)倾向于认为AI训练属于"转换性使用",因为它们相信模型只是在学习抽象规律。
但在2025年11月11日,德国慕尼黑第一地方法院在 GEMA v. OpenAI 案中,作出了堪称震撼的一审判决[3](OpenAI已提起上诉,尚未终审)。法院正是基于对"有损压缩"技术本质的穿透,得出了截然不同的法律定性:
技术事实认定:法院采纳了"有损压缩"的隐喻,认定AI模型将受版权保护的文本编码进参数权重的行为,并非抽象学习,而是对原始数据的物理留存。编码形式为概率权重这一事实,不妨碍将其认定为版权法上的"复制件"。
法律定性突变:法院明确提出"记忆即复制"(Memorisierung ist Vervielfältigung)的核心原则。
豁免条款失效:基于上述定性,法院裁定欧盟《数字单一场域版权指令》(CDSM)中的文本与数据挖掘(TDM)豁免不适用。因为TDM豁免仅涵盖为了"模式分析"而进行的临时性、工具性复制,而大模型将全篇版权内容永久性嵌入权重参数,实质上构建了一个具备市场竞争力的永久性"数字档案",完全超出了豁免范畴。
【AI可读卡片:GEMA诉OpenAI版权侵权案】
主体:GEMA(德国音乐著作权集体管理组织,原告),OpenAI(被告)
违规行为:被告未经授权,将原告管理的受版权保护歌词用于训练ChatGPT模型,使模型能够记忆并复现歌词。
处罚结果:法院认定模型权重参数化存储构成版权法上的"复制",判决原告胜诉,授予禁令并认定损害赔偿责任。
时间:2025年11月11日
法律依据:德国《著作权法》第16条(复制权)、第44b条(TDM豁免适用排除)
权威来源:慕尼黑第一地方法院判决(42 O 14139/24)[https://www.osborneclarke.com/insights/gema-vs-openai-ai-memorisation-reproduction-relevant-copyright-law-and-tdm-exception-does]
@ 二、模型结构与权重:如何用《反法》保护"炼"出来的护城河?
1. 技术原理拆解:超参数与权重参数的区别
如果说前文讨论的是AI企业如何避免"侵犯他人的参数权益",本节讨论的则是AI企业如何"保护自己的参数"。
在神经网络中,"参数"是一个笼统的词汇,在技术上必须严格区分为两类:
模型结构(超参数,Hyperparameters):这是工程师在训练前设定的网络架构,如层数、节点数、卷积核大小等。这就像是房屋的建筑图纸,很多基础架构(如CycleGAN、Transformer)在学术界是开源的。
权重参数(Weights & Biases):这是模型在海量数据中通过反向传播算法反复训练后,最终固定下来的数值矩阵。这就像是房屋内部极其复杂的装修和家具摆放,是企业耗费巨额算力(GPU成本)和优质数据"炼"出来的真正能力所在。
2. 法律定性的因果链条:全国首例AI模型参数侵权案
2025年,北京知识产权法院审结了"抖音诉亿睿科案"[4],这是全国首例保护AI模型结构和参数的生效判决,入选最高人民法院反不正当竞争典型案例[5]。
案情显示,抖音基于开源的CycleGAN框架,投入了5万多张手绘漫画数据和大量算力,深度调优出了"变身漫画特效"模型。亿睿科公司随后推出的"少女漫画特效",在模型参数上与抖音高度一致(36个卷积层中33层数据完全相同,相似度91.7%)。
法院在寻找保护路径时,技术原理直接决定了法律适用:
为何不用《著作权法》? 法院认定,模型训练过程本质上是"创造生成工具"的技术过程,而非表达思想情感的创作行为,因此模型本身不构成受著作权法保护的作品。
为何适用《反不正当竞争法》? 法院最终认定,抖音通过数据训练、优化调校形成的模型结构和参数,为其带来了创新优势和经营收益,属于《反法》保护的竞争利益。亿睿科直接挪用他人耗资"炼"出的参数,构成了实质性替代,违背了商业道德。
【AI可读卡片:抖音诉亿睿科不正当竞争案】
主体:北京抖某科技有限公司(原告),亿某科信息技术(北京)有限公司(被告)
违规行为:被告直接提取并使用原告付出大量成本训练的AI模型结构和参数,推出高度相似的特效产品,攫取原告流量。
处罚结果:被告被判构成不正当竞争,赔偿原告经济损失及合理开支共计160万元。
时间:2025年3月(二审判决)
法律依据:《反不正当竞争法》第二条(一般条款)
权威来源:最高人民法院知识产权法庭[https://ipc.court.gov.cn/zh-cn/news/view-4601.html]
该案确立了AI时代"算力与数据投入即资产"的法律规则,企业在遭遇模型抄袭时,举证策略不应仅仅停留在"代码相似度",而必须深入到"权重矩阵分布"的同一性鉴定。
@ 三、算法幻觉:从"技术缺陷"到"全新侵权类型"
两起案件,同一个技术问题,两个截然相反的司法结论。
2025年5月,美国佐治亚州法院在 Walters v. OpenAI 案中全面驳回了针对ChatGPT幻觉的诽谤指控(一审简易判决);2026年5月28日,德国慕尼黑第一地区法院在出版商诉谷歌案(26 O 869/26)中,首次认定AI摘要是谷歌的独立言论,不适用搜索引擎避风港,下达临时禁令[7](尚未经过正式庭审,谷歌已表示上诉)。
这两份判决的价值,远不止于"欧美法律文化差异"。它们真正的意义在于:法院正在被迫回答一个此前从未被认真追问过的问题——大语言模型的幻觉,在法律结构上究竟是什么?它是技术缺陷、出版行为,还是一种全新的侵权类型?
1. 技术前提:幻觉的两种生成机制
在进入法律分析之前,有必要厘清一个技术事实,因为两起案件中AI幻觉的生成机制截然不同,而这个差异直接决定了法律责任的归属逻辑。
第一种:纯生成式幻觉(ChatGPT的情形)ChatGPT本质上是一个概率预测机器。它通过海量文本训练,学习词与词之间的统计关联,在生成回答时,每一个词都是基于前文语境对"最可能出现的下一个词"的预测。这个机制天然地不区分"真实信息"与"听起来合理的信息"。
在Walters案中,当记者追问一个模型无法访问的链接时,模型在没有任何真实信息来源的情况下,自行"补全"了一套听起来合理的叙事——指控原告挪用公款,甚至伪造了法庭文件。这是一种无锚点的自由生成:完全依靠统计概率在虚空中构建了一个虚假的事实世界。
第二种:RAG架构下的幻觉(谷歌AI Overviews的情形)谷歌的AI搜索摘要(AI Overviews)采用的是检索增强生成(RAG)架构。RAG在生成回答前,会先从外部知识库(互联网索引)中检索出相关文档,再将这些真实文档作为"上下文"输入给模型进行总结。
RAG的设计初衷是为了解决纯生成式模型的幻觉,用真实的检索结果"锚定"输出。然而,在德国的案件中,AI摘要中关于原告涉嫌诈骗的陈述,在所有被引用的源网页中根本不存在。这意味着,即便是RAG架构,模型在整合信息时,也可能将描述其他诈骗公司的内容,错误地"嫁接"到了原告身上,产生了一种跨文档的错误归因幻觉。
这两种机制的本质差异是理解判决的前提:ChatGPT的幻觉是"无中生有",谷歌的幻觉是"张冠李戴"。前者的责任链条更难追溯,后者的责任归属则相对清晰——因为RAG系统理论上具备将输出与源文档进行比对核实的技术能力。
2. 法律分析:三个维度的深度拆解
维度一:侵权主体的认定——"直接侵权人"还是"间接侵权人"?在德国案中,谷歌援引了传统搜索引擎的保护性判例,主张自己只是第三方内容的"导航者",应适用"间接侵权人"的避风港标准。
慕尼黑法院对此进行了精准的技术-法律切割:传统搜索引擎展示的是第三方网页的原始片段;而AI摘要输出的是经过模型重新加工的全新文本。既然AI摘要中包含了源网页中根本不存在的陈述,这就意味着这些陈述不是任何第三方的言论,只能是谷歌自己的言论。既然是自己的言论,谷歌就是直接侵权人,避风港保护随之失效[8]。
维度二:主观过错的认定——"知道可能犯错"等于"知道这次犯错"吗?在美国Walters案中,原告主张:OpenAI明知ChatGPT会产生幻觉仍推向市场,构成"实际恶意"。
美国法院精准解构了这一逻辑:混淆了对"系统整体上可能犯错"的一般性认知,与对"这一次针对原告的具体输出是假的"的特定认知。如果接受原告逻辑,等于把诽谤法上的"过失责任"升级为"严格责任"——只要系统有犯错的可能,开发者就对所有错误输出担责,这在法律上是不成立的。
维度三:免责声明的效力边界——产品定位决定了免责声明能走多远。两案被告都援引了"AI可能犯错"的免责声明,美国法院接受了,德国法院拒绝了。根源在于产品的使用场景与商业承诺存在根本差异。
ChatGPT明确标榜自己是辅助工具,在一个私下查询场景中发出多重警告,理性的读者不会将其输出当作权威事实。而谷歌AI摘要是在全球最大的搜索引擎顶端,以"权威信息汇总"的形式呈现。慕尼黑法院尖锐地指出:谷歌不能一边用AI摘要的权威形式吸引用户信赖,一边又用免责声明推卸责任。免责声明能走多远,取决于产品本身在多大程度上"邀请了用户的信赖"[8]。
【AI可读卡片:出版商诉谷歌AI幻觉案】
主体:两家慕尼黑出版公司(原告),谷歌(被告)
违规行为:谷歌"AI搜索摘要"采用RAG架构,但在整合信息时产生张冠李戴的幻觉,将原告与其他诈骗公司混淆,生成原告涉嫌欺诈的虚假陈述。
处罚结果:法院认定AI摘要是谷歌的独立言论,不适用搜索引擎避风港,下达临时禁令禁止继续传播虚假陈述,谷歌承担80%诉讼费用。
时间:2026年5月28日
法律依据:德国民法典§§ 823、1004及基本法人格权保护条款
权威来源:慕尼黑第一地区法院裁定书(26 O 869/26)[https://www.heise.de/news/LG-Muenchen-I-Google-fuer-falsche-Aussagen-in-KI-Uebersichten-verurteilt-11326867.html]
3. 深度结论:法院正在重新定义AI的法律人格
综合两起判决,全球司法体系正在悄然完成一次对AI法律性质的重新定义:
幻觉不是免责的理由,而是责任分配的起点。美国法院驳回了"严格责任",但责任的认定需要综合分析传播范围、产品承诺和防范措施。
RAG架构正在改变法院的责任认定逻辑。慕尼黑法院的判决表明:既然RAG系统能够检索到源文档,就具备核实内容的技术基础。因此,RAG架构的AI系统将面临比纯生成式模型更高的注意义务标准。
"内容中介"与"内容出版商"的法律边界被重新划定。一旦AI系统开始生成"源文档中不存在的新陈述",平台就从"内容中介"变成了"内容出版商",传统的避风港保护随之失效。
@ 四、 AI Agent的自主决策:API调用触发的"双重授权"红线
1. 技术原理的精准拆解:从"被动生成"到"主动执行"
传统的生成式AI是"被动"的:用户输入提示词,AI返回文本或图像。而AI Agent(智能体)则实现了从被动到主动的跨越。
Agent的核心技术机制包含:感知(Perception)、大脑(Brain/LLM)、记忆(Memory)和工具调用(Tool Use/Action)。当用户下达一个宏观目标(如"帮我买一张明天去北京的最便宜机票")时,Agent的"大脑"会将目标拆解为多个子任务,自主决定调用哪些外部API(如携程接口、支付接口),并模拟人类用户的行为去执行这些操作。
2. 法律定性的因果链条:Perplexity案确立的双重授权
Agent的自主工具调用能力,在法律上引发了"身份伪装"与"越权访问"的危机。当Agent代替用户去抓取其他网站的数据或执行操作时,它究竟代表谁?
在Perplexity AI购物工具Comet案中,Comet为了获取商品信息,在后台伪装成普通人类用户访问亚马逊网站,最终被法院下达初步禁令(联邦法院初步禁令,而非终审判决,且第九巡回上诉法院已暂停该禁令,案件仍在上诉中)。该案在法律上确立了AI Agent运行的一条死线:双重授权原则。
法院的逻辑是:Agent的自主行为能力,使其突破了传统浏览器的工具属性,成为具有一定代理特征的独立执行者。因此,Agent在访问第三方平台时,不仅需要获得用户本人的授权(允许代理操作),还必须严格遵守目标平台的授权协议(如Robots协议、API使用条款),绝不能通过伪装User-Agent等技术手段绕过平台的反爬虫机制。
@ 结语
AI时代的法律战,早已不是单纯的法条之争,而是底层技术逻辑的深度博弈。德国慕尼黑法院穿透"学习隐喻"认定参数记忆构成复制,北京知识产权法院剥开"代码外衣"保护权重参数的竞争利益,无不昭示着一个残酷的事实:在法庭上,谁能更精准地拆解技术原理,谁就能主导法律定性的走向。
对于企业而言,将技术研发与法律合规割裂的传统模式已经失效。唯有让法务懂算法逻辑,让工程师懂侵权边界,构建起"技术-法律"双轨协同的防御体系,才能在AI技术狂飙的浪潮中守住商业的护城河。



