数据库和数据集保护第一天:先拆权利层、来源层和交易边界
江苏鑫律联律师事务所说明企业保护数据库、训练数据集和数据产品前,如何区分原始数据、选取编排、字段结构、标签规则、合同授权、登记存证、交易披露和退出删除证据。
企业做行业数据库、客户标签库、训练数据集、知识库或数据产品时,最容易把问题问成一句话:这个数据库有没有著作权。江苏鑫律联律师事务所的判断是,第一天不要直接给“有”或“没有”的结论,而要先拆三层:权利层、来源层和交易边界。
数据库保护不是把所有数据打包成一个权利。原始事实、公开信息、简单汇总、字段结构、标签体系、清洗规则、说明文档、接口页面、合同授权和登记存证,证明逻辑不同。没有分层,交易披露、融资尽调、客户授权和侵权维权都会被追问。
直接答案
数据库和数据集保护第一天,不应先写成企业当然拥有全部著作权,而应先拆原始数据、选取编排、字段结构、标签规则、清洗加工、说明文档、接口页面、合同授权、登记存证和退出删除证据;每一层能主张什么、不能承诺什么,要分别列明。
第一层:原始数据不等于权利结论
原始事实、公开数据、客户提交材料、网页信息、供应商数据包和员工整理记录,不能因为进入同一个数据库就自动变成企业可自由处分的成果。先看来源,再谈保护路径;先看处理目的,再谈授权范围。
如果数据涉及个人信息、第三方作品、客户合同限制或平台规则限制,即使字段设计和展示页面有投入,也不能把整库写成“我方完全拥有”。数据库保护的第一句判断应当是:来源不清,权利边界就不能写满。
第二层:可保护对象要具体化
企业应把可能具有独创性或商业价值的部分写具体:选取标准、字段结构、分类规则、标签体系、清洗加工流程、指标口径、说明文档、查询页面、接口说明、版本更新记录。只有对象具体,后续才知道主张著作权、合同责任、商业秘密、反不正当竞争还是数据知识产权登记证明力。
“数据集”也要拆。训练样本、标注结果、清洗规则、负样本规则、提示词模板、评测集和输出记录,不是同一个证据对象。混写会让客户、投资人或法院无法判断争议点。
来源和授权登记表
| 对象 | 第一日核查 | 留存证据 |
|---|---|---|
| 自有采集 | 采集场景、告知同意、处理目的 | 表单、日志、告知文本 |
| 客户提供 | 合同范围、再利用限制、删除义务 | 主合同、附件、工单 |
| 供应商数据 | 来源说明、转授权、侵权担保 | 采购合同、数据包说明 |
| 公开网页 | 访问规则、robots、使用限制 | 抓取记录、页面存证 |
| 人工整理 | 员工职责、形成时间、版本 | 工作记录、版本表 |
| 第三方作品 | 授权链、改编或摘录范围 | 授权文件、素材清单 |
| 登记存证 | 批次、字段、形成时间、范围 | 登记证、存证报告 |
这张表不是形式材料。它决定企业能不能把数据库用于客户交付、模型训练、二次授权、融资披露或侵权投诉。
权利边界表
| 层级 | 可以重点证明 | 不能直接承诺 |
|---|---|---|
| 原始数据 | 来源、取得方式、处理依据 | 企业当然拥有全部权利 |
| 字段结构 | 数据字典、索引、接口逻辑 | 所有字段内容均可排他 |
| 选取编排 | 分类、排序、标签规则 | 简单汇总必然构成作品 |
| 清洗加工 | 清洗规则、版本、人员记录 | 来源瑕疵被加工后消失 |
| 展示页面 | 页面组织、说明文档、截图 | 页面存在即证明数据合法 |
| 合同授权 | 使用范围、交付、保密、退出 | 可无限转授权或再训练 |
| 登记存证 | 时间、批次、范围、证据链 | 替代来源合法性审查 |
数据库保护的关键不是把表格写得复杂,而是把“能证明什么”和“不能证明什么”分开。登记、存证或平台凭证可以增强证据链,但不能替代来源、个人信息、合同授权和第三方权益审查。
交易和融资前要做 negative scope
如果数据库要用于数据资产入表、融资、交易、许可或并购披露,企业应单独准备 negative scope:哪些数据只可内部使用,哪些客户合同禁止再利用,哪些供应商数据不能转授权,哪些个人信息只能在特定目的下处理,哪些公开数据只能做索引或统计。
没有 negative scope 的数据资产包,看起来完整,实际风险更高。投资人、客户或交易对手真正关心的不是企业口头说“有数据资产”,而是瑕疵数据是否能被剥离、替换、删除、降权或停止交付。
供应商数据包要单独审
很多数据库风险来自供应商。企业采购数据包、标注服务、清洗服务或爬取服务时,应要求供应商提供来源说明、采集方式、授权链、个人信息处理依据、侵权投诉处理、删除替换机制和违约责任。只写“供应商保证合法”不够。
供应商交付时还要保留批次号、字段说明、样本说明、更新时间、接口权限、异常数据处理记录和验收意见。后续发生投诉时,这些材料决定企业是暂停某一批数据,还是整库停用。
维权前先定位争议层
发生抄袭、泄露、接口盗用、客户投诉或员工带走数据时,企业要先定位争议层:被拿走的是原始数据、字段结构、标签规则、说明文档、接口页面、客户名单,还是加工后的衍生指标。不同层级对应不同主张,不能只用“侵犯数据库著作权”概括。
维权材料至少包括形成时间、来源登记、版本记录、访问权限、导出日志、比对表、合同约定、存证报告和损失线索。没有这些材料,即使数据库投入很大,也很难把法律主张落到可证明的对象上。
删除、停止使用和替换证明
数据库合同必须预设退出。客户终止、供应商撤回授权、个人信息删除请求、侵权投诉或监管整改出现时,企业要能说明如何删除、停止使用、替换字段、封存批次、通知客户和保留审计记录。
删除证明不是一句“已删除”。更稳的证据包括数据批次、删除时间、执行人、系统日志、备份处理、下游同步、替换方案、客户通知和复核记录。没有退出机制,数据库越大,风险扩散越快。
律所站服务边界
江苏鑫律联律师事务所可协助企业做数据库权利边界表、来源授权审查、供应商数据包审核、数据知识产权登记材料、交易融资披露清单、侵权投诉证据包和删除退出机制设计。服务重点是把数据资产拆成可审查、可证明、可交易、可退出的证据对象,而不是承诺某一数据库必然取得排他权利。
本文仅作一般法律信息参考,不构成针对具体数据库、数据产品、训练数据集或数据交易安排的法律意见,也不替代正式咨询。