AI 训练数据版权合规怎么审?先拆训练、微调、RAG、评测和对外服务
江苏鑫律联律师事务所说明企业使用公开数据、客户数据、第三方数据集做 AI 训练、微调、评测或 RAG 前,如何审查版权、个人信息、数据安全、跨境和供应商证明。
企业使用公开文章、图片、代码、评论、客户资料、行业报告或第三方数据集做 AI 训练时,不能只问“数据能不能下载”。应先区分用途:预训练、微调、评测、RAG 检索、内部知识库、客户项目交付和对外生成式服务,分别对应不同的版权、个人信息、数据安全和合同风险。
江苏鑫律联律师事务所建议把训练数据审查拆成四张表:数据来源表、权利类型表、使用模式表和供应商证明表。先把事实列清,再判断能否训练、是否要补授权、是否要脱敏、是否涉及跨境处理、是否需要删除或替换。
使用模式先分清
| 使用模式 | 风险重点 | 审查输出 |
|---|---|---|
| 预训练 | 大规模复制、作品来源、个人信息、公开服务 | 数据来源和授权证明 |
| 微调 | 客户数据、行业语料、商业秘密 | 项目授权和隔离记录 |
| 评测 | 样本来源、基准集许可、结果披露 | 评测数据清单 |
| RAG | 文档入库、访问权限、引用展示 | 知识库目录和删除机制 |
| 对外服务 | 生成内容责任、标识、投诉处理 | 上线合规包 |
同一份数据,用于内部检索和用于训练公开模型,风险等级不同。企业不能用一个“内部使用”概括所有技术动作。
公开数据不等于可自由训练
公开网页、开源仓库、图片库、论文、新闻、论坛问答和行业报告可能可以访问,但访问不等于复制、建库、训练和商业输出都被允许。企业要看网站条款、授权声明、接口协议、版权标识、数据来源和再分发限制。
对文章、图片、视频、音频、代码和课程材料,应判断是否构成作品或受许可证约束。对代码数据,还要单独审查开源许可证和无许可证仓库,不能把公开仓库直接当成自由训练材料。
个人信息和数据安全要同步审
训练数据中如果含姓名、联系方式、账号、头像、评论、定位、设备信息、行为轨迹或可识别个人的组合字段,就要审查处理目的、最小必要、告知同意或其他合法性基础、脱敏和删除机制。数据安全层面还要关注重要数据、行业敏感数据、客户秘密和跨境调用。
如果模型 API、标注团队、云服务或境外供应商会处理训练数据,企业还要形成处理路径图:谁接收、在哪里处理、保存多久、是否用于再训练、能否删除、日志能否导出。
供应商证明不能只写保证合法
采购语料、图片包、代码数据集或行业知识库时,合同里只有“保证合法”不够。供应商应提供来源类型、授权范围、是否含作品或个人信息、是否允许训练和商用、是否允许再分发、侵权投诉后如何删除替换、是否配合举证和赔偿。
企业内部也要留痕:数据进入哪个项目、由谁访问、是否进入训练集、评测集或知识库、是否同步给模型供应商、是否输出给客户产品。没有追溯链,后续很难证明合规边界。
江苏鑫律联律师事务所可协助企业建立 AI 训练数据审查表、数据供应商合同条款、RAG 知识库入库规则和跨境处理路径材料。本文仅作一般法律信息参考,不构成具体训练项目法律意见。
入库前和出库后都要留痕
训练数据进入项目之前,应记录数据来源、取得方式、授权文件、字段说明、是否含作品、是否含个人信息、是否含客户秘密、是否允许训练和商用。进入项目之后,还要记录数据被用于预训练、微调、评测、RAG 还是客户交付,谁可以访问,是否同步给供应商或境外模型。
数据退出也要有规则。合同终止、客户撤回、发现侵权、字段超范围、供应商来源不明或项目结束时,应能删除训练样本、知识库文档、评测集和缓存,并保留删除或隔离记录。没有出库机制,企业很难证明风险已经停止。
管理层需要看到红黄绿分级
建议把数据分为绿色、黄色和红色。绿色数据是来源清楚、授权明确、无个人信息或已合理处理、用途覆盖训练的材料;黄色数据是来源可查但授权范围、个人信息或跨境路径需要补充说明的材料;红色数据是来源不明、禁止训练、含客户秘密、无权作品或无法删除替换的材料。分级能让业务团队知道哪些可以先用,哪些必须停下。
合同条款要对应技术动作
训练数据合同不能只写“可用于 AI”。应把预训练、微调、评测、RAG、客户交付、公开生成服务、再分发、模型供应商处理和跨境传输分别写清。供应商如果只授权内部分析,却没有授权模型训练或商业输出,企业就不能把数据直接放进训练流程。
技术团队还要把合同限制转成系统控制。例如只允许在某项目使用,就要限制访问权限;要求项目结束后删除,就要能定位样本和索引;禁止进入境外模型,就要关闭相应 API;要求不用于再训练,就要在供应商配置和合同中同时确认。
训练数据还要和输出责任连接起来。若模型输出被投诉侵权、泄露个人信息或包含客户秘密,企业需要回查训练样本、知识库文档、供应商接口和人工审核记录。只管理输入、不管理输出,会让责任判断断在中间。
因此建议项目上线前形成一页数据责任表,列明数据来源、用途、接收方、删除机制、输出审核、投诉负责人和供应商协助义务。表格越具体,后续越容易执行。
如果项目后续新增训练目标、接入新供应商、扩大客户范围或改变部署地区,应重新复核数据授权和处理路径。
复核记录应和模型版本、数据版本、供应商版本绑定保存,避免后续无法定位责任。
版本绑定要进台账。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《中华人民共和国数据安全法》
- [3] 《网络数据安全管理条例》
- [4] 《中华人民共和国著作权法》
- [5] 《生成式人工智能服务管理暂行办法》
- [6] 《促进和规范数据跨境流动规定》