大模型数据来源合规审查第一天:先建来源、用途和退出表
江苏鑫律联律师事务所说明企业做大模型训练、微调、RAG、智能客服或文档问答前,如何核查自有数据、客户数据、公开数据、第三方数据集和模型供应商处理边界。
企业做大模型训练、微调、RAG 知识库、智能客服、文档问答或内部知识助手时,最常见的风险不是模型已经上线,而是数据进入系统前没有分清来源、用途和退出。江苏鑫律联律师事务所的判断是,第一天不要先问“这些资料能不能训”,而要先做来源、用途和退出表。
“网上能看到”“客户已经给了”“供应商说可商用”“只是内部测试”,都不能直接推出可以进入训练集。大模型数据来源合规要同时看个人信息、作品和数据库权益、客户保密义务、供应商再训练、公众服务触发、跨境访问和删除退出。
直接答案
大模型数据来源合规审查第一天,不应先把资料倒进训练集,而应先建来源、用途和退出表:每批数据都要记录来源主体、授权文件、是否含个人信息或作品、适用训练/微调/RAG/评测哪一类用途、供应商是否可留存或再训练、项目结束后如何删除、替换和出具证明。
来源登记表
| 来源类型 | 第一日核查 | 留存证据 |
|---|---|---|
| 企业自有数据 | 是否含员工、客户、第三方作品或商业秘密 | 数据目录、权限表、形成记录 |
| 客户数据 | 合同目的、保密条款、训练或检索授权 | 主合同、DPA、项目授权 |
| 公开数据 | 网站规则、作品属性、抓取方式、再利用限制 | URL 清单、规则截图、采集日志 |
| 第三方数据集 | 权利来源、转授权、训练用途、删除替换 | 采购合同、来源说明 |
| 供应商处理 | API、私有化、标注、向量库、云服务 | 处理协议、子处理者清单 |
| 输出交付 | 客户报告、模型能力、知识库答案、接口服务 | 交付说明、版本记录 |
| 退出证明 | 删除、屏蔽、替换、回滚、日志和复核 | 删除证明、工单、审计记录 |
这张表不是法务留档,而是业务、技术、采购、合规和管理层共同使用的上线底稿。没有表,就无法判断数据应进入训练、微调、RAG、评测还是直接排除。
自有数据也要重新看目的
企业自有数据可能包括合同、工单、客服记录、知识库、销售线索、设备日志、项目文档、代码库和员工上传文件。自有不等于无限使用,因为里面可能包含客户个人信息、员工信息、第三方素材、客户保密资料或合同限制。
如果原始收集目的只是履行合同、售后服务或内部管理,直接转为模型训练、算法优化或客户交付,可能超出原目的。第一天应先判断是否需要脱敏、匿名化、权限隔离、客户确认或排除部分字段。
客户数据不能用内部研发概括
客户提供的合同、客服记录、工单、图片、录音、交易日志和知识库,不能因为客户交给企业处理,就自动允许沉淀到通用模型能力。要看合同是否允许训练、微调、评测、RAG、供应商处理、跨境访问和项目结束后的保留。
只要材料能够识别特定个人,就要审查处理目的、必要性、告知同意或其他处理依据、敏感个人信息、第三方提供和删除请求。删除姓名和手机号但仍可通过账号、语音、图片、订单组合识别个人,不能简单写成已经匿名化。
公开和第三方数据要看权利链
公开网页、文章、图片、视频、代码、论坛问答、公开数据库和行业报告,公开可访问不等于可以复制、训练、商用、再分发或对客户交付。企业要看著作权、网站条款、接口规则、抓取方式、商业秘密和反不正当竞争风险。
第三方采购数据集还要看供应商是否有权提供训练用途授权。合同写“可商用”仍然不够,最好明确是否覆盖训练、微调、评测、RAG、模型输出、客户项目交付、再分发、删除替换和侵权追偿。
训练、微调、RAG 和评测分开审
| 用途 | 风险重点 | 第一日动作 |
|---|---|---|
| 预训练 | 数据规模、权利链、个人信息、公众服务触发 | 建来源批次和排除清单 |
| 微调 | 客户场景、专有资料、输出责任 | 写项目边界和删除期限 |
| RAG | 检索材料、访问权限、引用记录 | 建知识库准入和更新删除日志 |
| 评测集 | 样本来源、题目答案、泄露风险 | 留样本来源和版本记录 |
| 内部测试 | 最小样本、隔离环境、测试后删除 | 限权、日志、删除证明 |
| 客户交付 | 用途限制、错误处理、投诉替换 | 写合同附件和 cannot-promise |
不同用途不能只放进同一个“知识库”文件夹。训练可能影响模型能力形成,RAG 更接近检索调用,评测集强调版本和泄露控制,内部测试不能自动升级成客户交付。
模型供应商合同要单独审
企业把数据上传给模型 API、私有化部署厂商、标注团队、向量数据库、云服务或外包团队时,要审查供应商是否保留输入输出、是否用于自身训练、保存期限多长、是否有子处理者、是否跨境传输、是否支持删除、审计和投诉协助。
合同里应写清:数据只用于本项目,不得用于供应商通用模型训练或其他客户服务;项目结束、客户撤回、投诉成立或字段被认定高风险时,供应商应删除、返还、停用或替换,并提供可核验记录。
客户交付前写 negative scope
如果数据来源表还不完整,企业不要向客户承诺模型输出一定可商用、训练语料完全无权利瑕疵、公开数据可无限复用、供应商数据可继续转授权或个人信息已经彻底匿名。更稳的写法是列出用途限制和不能承诺范围。
例如:只允许内部检索,不允许训练通用模型;只允许当前客户项目,不允许再分发;只允许保留向量索引,不保留原文;收到权利人或个人信息请求时,企业可删除、替换、降级或暂停相关批次。
删除退出不是一句话
大模型项目的删除退出要拆对象:原始数据、清洗数据、标注数据、向量、提示词、日志、输出样本、备份、供应商缓存和客户交付版本。只写“项目结束后删除数据”,不足以证明退出已经执行。
删除证明应包括批次、路径、执行人、时间、备份处理、下游同步、供应商确认、客户通知和复核记录。不能删除的模型能力影响,也要通过停用、隔离、再训练排除、输出过滤或合同风险提示处理。
律所站服务边界
江苏鑫律联律师事务所可协助企业建立大模型数据来源合规表、训练/RAG 用途矩阵、供应商数据处理条款、客户交付 negative scope、删除退出证明和投诉响应证据包。服务目标是让数据来源、用途、供应商处理和退出责任可审查,而不是承诺某个训练项目一定通过监管、一定无侵权或一定可以公开商用。
本文仅作一般法律信息参考,不构成针对具体大模型数据来源、训练项目、RAG 知识库或供应商合同的法律意见,也不替代正式咨询。
参考资料
- [1] 《中华人民共和国个人信息保护法》
- [2] 《中华人民共和国数据安全法》
- [3] 《网络数据安全管理条例》
- [4] 《中华人民共和国著作权法》
- [5] 《生成式人工智能服务管理暂行办法》