开云体育
开云体育头条 生成式人工智能训练数据的著作权合理使用研究
文章聚焦生成式人工智能训练数据的著作权合理使用研究,发现生成式人工智能训练数据对海量作品的使用面临较高的侵权风险,同时因成本过高而使传统授权模式难以适用。研究认为,从理论上看,此类使用行为因为具有非表达性使用的特征,不与原作品市场形成直接竞争,可以被纳入合理使用范畴。从比较法上看,各国均为技术发展提供制度空间。在我国,有关主体应通过法律框架解释、配套制度构建及协同模式治理,形成生成式人工智能训练数据的著作权合理使用路径,明确将符合条件的生成式人工智能训练数据使用行为纳入合理使用情形,并同步构建包含行业合规指引、补偿基金设计的配套制度,形成多元协同治理,为生成式人工智能产业的创新发展提供清晰、可持续的法律保障。
自2022年ChatGPT惊艳亮相,掀起全世界讨论热潮,人工智能领域不断地吸引社会各界的广泛关注。2025年,DeepSeek正式发布,再次激发全球对人工智能的深度关注和热烈讨论。人工智能成为21世纪推动科技发展、社会进步的重要力量。新技术的兴起改变相关各方之间的利益格局,给目前现行的著作权制度带来前所未有的冲击。生成式人工智能训练数据来自互联网的公开抓取内容,其中包括受到著作权法保护的海量作品,容易引发与著作权相关的争议。悬而未决的法律风险已成为制约人工智能产业发展的“达摩克利斯之剑”,且问题的症结与核心议题在于海量的生成式人工智能训练数据是否构成侵权,要破解这一难题的关键在于,有关主体应对著作权合理使用进行重新审视与清晰界定。
数据训练指利用大规模数据集对人工智能模型进行训练,旨在使其能够预测数据趋势或自主做出决策。训练数据是机器学习过程中的核心,直接决定模型的能力上限与实际效能[1]。高质量、大规模的训练数据往往能够造就更强大、更可靠的人工智能系统[2]。然而,生成式人工智能训练数据的使用必然会导致受到著作权法保护的众多作品面临被侵权的后果。例如,2020年,汤森路透起诉罗斯智能,指控其未经授权使用Westlaw法律头注训练人工智能系统,侵犯相关权益,此案成为生成式人工智能训练数据使用的争议典型。在多数人工智能著作权侵权案中,被告以合理使用作为抗辩理由,导致审理陷入僵局。
目前,在生成式人工智能训练数据著作权合理使用研究中,有学者主张应拓宽法定例外的情形,允许生成式人工智能在符合一定条件下使用受著作权法保护的作品作为训练数据,从而解决训练数据供给的合法性问题,提高生成式人工智能训练数据的质量,避免对权利人的权利造成实质性的侵害,以达到社会效益的最优化,为规模小的科技企业提供更公平的竞争环境,打破拥有大量授权资金的企业垄断,从而促进人工智能领域资源向我国集中[3]。也有学者认为,合理使用原则有可能被企业以公共利益的名义滥用,打击权利人的创作热情,同时对合理使用的认定需要逐个对个案进行分析,这在司法实践中容易造成认定标准不一,同案不同判等问题[4]。
生成式人工智能训练数据的流程可以分为数据收集、数据预处理、模型训练三个部分。数据收集有网络爬取、购买授权、利用公开数据集合成数据生成等方式。其中,网络爬取是最主要和基础的方式,其通过爬虫技术自动从网络上的公开资源中大规模地抓取文本、图片、视频代码等数据,即从一个或几个网页链接开始自动访问相关链接,把页面中包含的其他链接收集起来并留待后续访问,在尽量短的时间内尽可能多地抓取网页信息[5]。可以说,网络爬虫技术凭借其高效自动化的数据抓取能力,在生成式人工智能训练数据收集中发挥着不可替代的作用,成为数据收集领域的关键实践工具,不仅为各类研究和应用提供大规模实时的信息资源,也构成互联网开放共享与协同协作的基石[6]。然而,在数据收集阶段,生成式人工智能倾向于采集大量的高价值数据,包括公共数据和企业数据[7],这在一定程度上有可能涉及著作权合理使用的问题,甚至构成对他人著作权的侵害,面临严重的法律风险。因此,数据获取的合规性已成为生成式人工智能治理的关键问题。
在复制权的视角下,人工智能训练过程通常需要对海量作品进行临时性、机器自动化的复制操作,此类复制行为具有明显的功能性和中间性特征,是模型训练不可或缺的技术步骤。相比传统著作权法所规制的复制权主要针对那些具有独立经济或使用价值的稳定持久的复制行为,生成式人工智能训练数据的机械性复制行为与著作权法所规制的复制行为之间能否画上等号?有学者认为,若生成式人工智能输出内容与训练数据不存在实质性相似,且不具备生产相似内容的能力,则训练过程中的作品适用未实际利用其独创性表达,不构成著作权法意义上的复制[8]。也有学者认为,生成式人工智能训练数据的复制行为不具备向公众传播的目的和效果,因此不应被简单归类为著作权法意义上的复制行为,其本质更符合临时复制的技术特征[9]。
海量训练数据与传统著作权许可模式之间存在难以调和的结构性矛盾。生成式人工智能需要使用数百万甚至数十亿份作品进行训练,若按传统“先授权后使用”原则,则需要与海量权利人逐一谈判。其巨额的交易成本、漫长的清算周期与极高的法律不确定性,也使得全面许可在实践中不具备可操作性。这不仅阻碍技术创新,更会因授权壁垒造成市场垄断,实质上导致著作权市场失灵。当前,生成式人工智能训练数据主要来自开放网络资源,尤其是借助自动化手段爬取获得的文本与作品,且由于数据规模庞大且来源分散,导致具体作品与原始著作权人之间难以建立清晰、稳定的权属关联[10]。基于此,传统的著作权许可模式已经无法有效适用。
合理使用制度的法律价值在于通过平衡著作权人的专有权益与社会公共利益,允许部分使用者未经许可正当使用作品,从而促进科学、文化事业的发展。合理使用的出现是著作权法内在冲突调和所产生的必然结果,并且从权利性质上而言,著作权是一种垄断权,一味地将其绝对化势必会与这项公众的基本权利产生冲突。合理使用能够为二者提供平衡,确保公众用现有的、可以接触到的文化成果进行新的交流,维护更大的公共利益:一方面,合理使用规则保护创作者权益,允许后续创作者在有限范围内借鉴评论现有作品,增加原作品的曝光和影响力,间接促进创作者的声誉和市场价值,为创作者提供更丰富的创作土壤和传播生态;另一方面,保障公众获取知识、参与文化实践的权利,允许公众为评论、教育研究等目的有限使用作品,确保文化资源不被私有权完全垄断,最终实现知识共享与文化繁荣的平衡。
对行为是否属于合理使用的判断标准源自美国判例法的四要素分析和国际公约中的三步检验法,相对三步检验法而言,四要素分析提供更具体操作的弹性框架,通过多维度综合性的个案权衡,适应技术发展的新情况,允许法院充分考虑转化性使用的正当性,并对市场影响进行更具前瞻性的评估,而非机械的使用抽象条件,在司法实践中展现更强的适应性。
合理使用中的“使用的目的和性质”是四要素之首,新使用是否仅为替代原作品,还是增添新的表达、意义、功能或信息,从而服务于批评、评论、新闻报道、教学、科研等公共利益目的。生成式人工智能开发主要由大型科技企业主导,其核心驱动力是商业利益与市场竞争,旨在通过产品化和服务收费实现盈利。这与合理使用制度传统上倾斜保护的教育、科研等非营利性公益目的形成直接价值冲突。合理使用的法理基础在于通过有限且合理的例外,平衡权利人利益与社会公共利益,核心是促进知识传播、学习自由和文化发展,而非为商业实体的市场化经营活动提供无偿资源。因此,有关主体将纯粹由商业驱动、以盈利为目标的人工智能训练数据使用行为纳入合理使用范围,实质上是对该制度传统理念的重要突破,也构成当前司法裁判和政策制定中的核心争议焦点。反对者认为,合理使用制度并非促进公共利益的唯一工具[11],可能不合理地削弱对创作者的激励;支持者则主张,应从行为本身的“转换性”和社会总福利角度进行判断[12]。这一争论深刻地反映著作权制度在应对颠覆性技术时所面临的全新挑战。
在传统著作权法的合理使用分析框架中,被使用作品的性质是一个基础性的考量因素。通常而言,使用事实性、信息性作品(如科学发现、历史事实、数据汇编等)比使用高度独创性的文学、艺术、音乐作品更容易被认定为合理使用。同时,已发表作品相较于未发表的私密作品,其所涉及的隐私利益较低,也更容易被允许使用。这种区分体现了法律对独创性表达和作者人身权利更高程度的保护。然而,生成式人工智能训练数据对这一传统构成显著挑战。为了获得强大的泛化与创造能力,人工智能必须依赖于海量、多样化的训练数据集,其中不可避免地包含大量小说、诗歌、音乐、绘画等核心著作权作品。这些作品恰恰是著作权法保护体系中最具独创性和商业价值的核心客体。有学者认为,人工智能对作品的使用是“非表达性”的,而非欣赏或传播其创造性表达[13]。也有学者认为,创造性作品是著作权法保护的核心与基石,如果连最具商业价值和独创性的内容都可以被免费用于训练数据,将实质性损害著作权价值的根基。这一冲突的本质,是新技术环境下对作品功能与价值的重新定义之争,也是著作权法在激励原始创作与促进派生创新之间必须做出的艰难权衡。
生成式人工智能模型的训练过程通常需要大量使用受著作权法保护的作品,不可避免地涉及对原作品的复制行为。与此同时,生成式人工智能的快速生成能力和涌现能力可能抢占被训练作品的市场,从而削弱著作权人的经济收益,影响其合法权益[14]。在经过大数据模型进行训练数据分析和整合后,输出端所生成的内容往往不会呈现与原作品一样的表达,并且不会包含来自训练数据的原始片段。人工智能输出的内容更多是来自海量数据中抽象、整合、重构而得的新内容,与训练数据存在本质的差别。生成式人工智能训练数据的使用本质上属于功能性学习与分析过程,并不以再现原作品表达为目的。训练后的生成内容基于算法从海量数据中抽象出的模式独立产生,并不复制原作品,也不替代其市场受众。原作品的价值往往体现在其艺术个性与思想意图上,而人工智能输出多为满足信息性、功能性的需求,二者在使用场景和市场定位上形成显著区隔,并不构成直接竞争关系,也不会对著作权人的经济利益产生实质性影响。
转换性使用指对受著作权法保护作品的使用,其目的和性质发生根本性的改变。它不是单纯地为了再现、展示或享受原作品本身的艺术、文学价值,而是将作品作为原始材料,用于一个全新的、不同的目的。生成式人工智能训练数据的使用在本质上超越传统著作权法所预设的单纯对原作品的再现或享受,而是将原作品视为学习资料,通过复杂的数学建模,对其进行解构与分析,以提取其中蕴含的统计规律、模式特征与语义结构。这意味着作品不再作为传递意义的表达,而作为一种功能性的数据库或知识库,成为为模型提供参数优化的基础。整个过程的目的是通过模型深度学习和知识解剖,实现具有针对性的转化使用,并且从产出结果而言,训练数据并没有大量地出现在输出端,不包含也没有储存和作品相同的复制件。
美国《版权法》第107条确立合理使用制度的核心判断标准,共包含四项要素:一是使用行为的目的与特征,包括是否具有商业性质或非营利教育目的;二是作品本身的属性,即作品类型及其创造性程度;三是所使用部分相对于作品整体的数量与实质性,强调其在原作品中的重要性;四是该使用行为对原作品潜在市场或价值的影响,即是否损害权利人的经济利益[12]。合理使用规则中的转化性使用由1994年美国最高法院Campbell案所确立。在该案中,法院认定未经许可对图书进行数字化以提供检索服务的行为构成合理使用,具有高度的“转换性”,旨在提供新的知识发现功能,而非替代原作品,且未对作品的潜在市场产生负面影响。该判决法理为论证人工智能训练数据的使用符合合理使用提供重要的类比依据,说明转换性使用和市场替代分析在机器学习语境下的适用具有正当性。
欧盟在其人工智能相关立法中明确规定,通用人工智能(GPAI)模型的提供者必须承担训练数据来源的权利保护责任,并履行相应的数据透明度披露义务。这一规定广泛适用于包括生成式人工智能在内的各类GPAI系统。欧盟还通过《数字化单一市场版权指令》系统设立对TDM行为的例外规则。在使用目的符合科学研究下或一般性TDM活动中,权利人未以机器可读等适当方式明确保留权利,并且使用者需要履行版权透明度义务,在依法公开训练数据中所含版权作品的关键信息的条件下允许对合法获取的作品进行TDM使用。尽管欧盟在立法层面已构建较为清晰的例外规则体系,但其司法系统在具体适用TDM条款处理生成式人工智能训练数据争议方面仍缺乏具有广泛影响力的裁判先例,呈现“立法先行、司法滞后”的典型特征[15]。欧盟更倾向于通过成文法明确例外情形,以增强法律确定性和技术可合规性。
日本通过《著作权法》确立以“非欣赏性使用”为核心的生成式人工智能训练数据合理使用规则,若使用作品的目的并非欣赏其内容或感受其思想情感,而是进行信息分析、机器学习等技术性处理,则此类使用不构成对著作权人市场的替代,故可被纳入合理使用范畴。生成式人工智能训练过程对作品的使用仅作为数据特征提取,不涉及对人类情感意义的体验,因此不影响作品原有的欣赏性市场[16]。日本立法明确将“信息分析”列为合理使用情形,允许包括商业主体在内的任何使用者在必要范围内以任何方式使用作品,且不限制使用数量,仅要求不得对著作权人利益造成不当损害。
有关主体应在现行著作权合理使用制度框架内,设计专门适用于生成式人工智能的例外条款,以回应其技术迭代对数据利用模式的现实需求,实现激励创新与规范发展的平衡。具体来说,有关主体应利用我国著作权法第二十四条的兜底条款作为法律接口,明确规定生成式人工智能训练数据合理使用范畴,并进一步细化适用的具体规则[17]。有关主体也应在司法解释或后续修法中借鉴欧盟路径,以欧盟TDM例外明确性框架为基础,吸收美国转化性使用中的合理内核,增设专门的生成式人工智能训练数据合理使用条款,明确允许在合法获取的前提下为非商业性科学研究或具体商业创新活动进行必要复制使用[18],但需要遵守限于训练数据使用、内部使用,不得输出原作品等的限制性条件,鼓励司法实践重点考察使用行为的“转换性”程度,且训练行为并非为再现作品本身的艺术价值或思想内容,而是将其作为数据材料以挖掘统计规律、训练模型功能,这种对作品功能性的转换通常更具合理性。
行业合规指引的核心目标是化被动为主动,将抽象的法律原则转化为企业日常运营中可执行、可验证的具体操作步骤,是连接法律原则和企业实践之间的桥梁。有关主体应明确数据来源的合规性,如运营商在对网络数据进行抓取时优先采用已公开、具有明确授权的数据源,建立黑名单机制,将来源可疑具有侵权风险的网站进行标记,规避来自盗版网站等途径的数据。有关主体也应规范数据采集行为,在利用网络爬虫等技术进行数据抓取时遵守网站的相关协议,避免抓取手段对网站造成干扰破坏,建立全流程的数据治理与溯源体系。这包括对训练数据集进行详细的元数据记录,如来源、获取时间等,可以成为相关企业已尽到审慎注意义务、主张合理使用抗辩的核心证据。
由于海量的数据抓取难以一对一地获得许可,有关主体应设立一个专业性生成式人工智能服务,由相关企业按其营收或计算资源消耗的一定比例征收,形成一种与产业规模挂钩的可持续资金池对权利人进行集体性、象征性的补偿,并由独立的非营利性机构或委托现有著作权集体管理组织负责,在不妨碍技术创新效率的前提下,体现对知识价值的尊重,实现更广泛的社会公平。这不仅为合理使用的合法性提供坚实的伦理与经济支撑,更是构建鼓励创新与保护权益并重的健康人工智能生态的有益探索:一方面,相关企业不需要为海量数据事先寻求难以实现的授权,以保障发展效率;另一方面,权利人群体的贡献得到社会性的承认与回馈,缓和因技术变革带来的利益冲突。
生成式人工智能训练数据的著作权合理使用治理问题不能仅靠行业自治,也需要政府相关部门协同配合,形成一个多方参与的协同治理模式。具体来说,有关主体应明确政府相关部门的引导性角色,由国家网信办、版权局等牵头制定基础性政策框架,激发行业协会的枢纽作用,由其组织相关企业与权利方代表共同细化行业数据合规标准、许可协议范本,使法律原则转化为可操作的行业共识。有关主体也应建立常态化的利益相关方协商平台,由法学家、艺术家等多方共同加入,定期就数据使用的边界、补偿基金分配方案等争议性问题进行对话与调解,确保各方诉求被倾听和平衡,并鼓励技术赋能治理,支持开发中立的、基于区块链等技术的数据溯源与权益记录系统,为加强监管和解决争议提供透明、可信的事实依据,为生成式人工智能产业的健康可持续发展营造一个真正良性互动的生态系统。
每一轮颠覆性技术的出现,都深刻重构着世界的创新版图与竞争格局。生成式人工智能作为新一代信息技术的典型代表,具有巨大的发展潜力,然而,其在模型训练过程中所触及的著作权合理使用问题,已成为无法回避的关键性法律障碍。这一问题的妥善解决,不仅关乎技术本身的创新步伐,更关系到数字时代知识创造与传播的生态平衡。我国肩负着保护权利、激励原创、繁荣文化的国际责任,也面临抢占人工智能战略制高点、培育新质生产力的历史机遇。因此,我国立法与司法实践亟须对生成式人工智能训练数据的合理使用需求做出及时、有力且富有前瞻性的回应。
有关主体应采取一种系统化、分层级的应对策略,多维度同步推进:一方面,在相关实施条例中明确将生成式人工智能训练数据纳入合理使用范畴,并合理借鉴美国转化性使用中的有益成分;另一方面,建立多元共治的协商机制,确保著作权人、相关企业、学术界及社会公众等各方利益主体的诉求在规则形成过程中被充分倾听与有效平衡,并探索建立公平合理的著作权许可与补偿机制,为生成式人工智能产业的健康、可持续发展,营造一个真正开放、包容、良性互动的产业生态。
[2]刘水美.人工智能数据训练著作权合理使用法律规则路径探究[J].暨南学报(哲学社会科学版),2024(11):60-73.
[3]张媛媛.人工智能时代机器学习著作权限制制度之完善:对非表达性使用理论的补充[J].大连理工大学学报(社会科学版),2025(01):92-101.
[4]焦和平.人工智能创作中数据获取与利用的著作权风险及化解路径[J].当代法学,2022(04):128-140.
[5]武强,官却多杰,周庆国.网页向量化表示:一种优化网络爬虫质量的方法[J].计算机应用与软件,2025(06):350-355.
[6]朱峥.数据时代网络爬虫的内部管理型规制[J].行政法学研究,2022(01):158-167.
[7]孙清白.论人工智能大模型训练数据风险治理的规范构建[J].电子政务,2024(12):41-52.
[8]涂藤.机器学习的著作权侵权判定:超越非表达性使用理论[J].政治与法律,2024(10):162-176.
[9]李春晖.人工智能训练侵犯作品复制权吗?[J].华东政法大学学报,2025(04):46-66.
[10]张涛.人工智能大模型训练的著作权困境及其调适路径[J].现代法学,2025(02):189-208.
[12]陈咏梅,郝悦彤.著作权视角下“合理使用”在生成式人工智能场域的适用:以美国《版权法》所涉相关案例为分析中心[J].国际经济法学刊,2025(03):87-101.
[13]王迁.论人工智能生成的内容在著作权法中的定性[J].法律科学(西北政法大学学报),2017(05):148-155.
[14]包赛君,唐思慧.生成式人工智能模型训练中的作品合理使用问题研究[J].图书馆建设,2025(03):48-59.
[15]马一德,汪婷.人工智能训练数据版权侵权风险规制:欧盟实践、本土困境与解决路径[J].德国研究,2025(01):82-99.
[16]邱紫雁.人工智能时代机器学习版权合理使用制度的弹性分治设计:基于日本《著作权法》柔性合理使用条款的考察[J].中国出版,2025(09):51-57.
[17]关春媛.生成式人工智能训练版权合理使用探究:国际趋势、本土发展与规则构建[J].出版发行研究,2024(12):91-97.
[18]王雪蕾.人工智能数据挖掘适用著作权合理使用制度的审思[J].河北法学,2025(03):185-200.


2026-01-22
浏览次数:
次
返回列表