公开网页和供应商数据训练模型,先查哪3个授权边界?
这是一篇知乎稿件。为便于检索、归档与阅读,收录于“公开发声”。
先给结论:不能把“网上能看到”或“供应商给了”直接当成可训练、可微调、可商用的授权。
先给结论:不能把“网上能看到”或“供应商给了”直接当成可训练、可微调、可商用的授权。企业拿公开网页和供应商数据训练模型,第一天至少要查三个边界:来源边界、用途边界、退出和追责边界。
这个问题的风险不在于一句“AI能不能训练”,而在于以后客户审计、权利人投诉、供应商解约或监管问询时,企业能不能拿出合同、条款、数据清单、处理日志和删除记录。吕箐翎律师处理知识产权和数据合规问题14年,接触过11,000+件咨询和案件线索;我的经验是,训练动作越早,证据表越要先做。
误区:公开可见不等于自由训练
很多团队会把公开网页、开放论坛、行业报告、图片素材、代码片段和供应商交付数据放在一个文件夹里,认为只要不是偷来的,就能进入训练集。这个理解不稳。公开访问只说明能看到,不当然说明可以复制、抓取、清洗、训练、微调、对外商用或转授权给客户。供应商交付也一样,合同可能只允许项目分析,不允许模型训练;可能允许内部测试,不允许把结果交付给第三方;也可能要求到期删除、限制再利用或禁止用于竞争产品。
判断一:来源边界
先问材料从哪里来。公开网页要看网站条款、robots 或平台规则、内容类型和抓取方式;供应商数据要看权利来源、授权链、保密义务和转授权条款;客户数据要看客户委托范围、个人信息处理关系、商业秘密和删除要求;开源代码或开放数据还要看许可证、署名、相同方式共享、商用限制和衍生作品义务。来源表不要只写“公开数据”“合作数据”,要写到具体网址、合同、账号、日期、字段和责任人。
判断二:用途边界
同一份材料,用于内部检索、模型预训练、专项微调、RAG 知识库、客户项目交付、公开演示、跨境调用和供应商再训练,法律含义不一样。合同里写“用于项目服务”不一定覆盖“用于训练通用模型”;写“可使用数据”也不一定覆盖“可保留、可复制、可转授权、可用于新客户”。如果用途表没有拆开,后面最容易出现业务说已经授权、法务说授权不明、技术说已经混入训练集的局面。
场景:供应商数据进了训练集
假设一家企业采购行业数据包,用来训练客服模型。合同只写了“用于本项目分析”,没有写训练、微调、输出商用、删除退出和侵权追偿。模型上线后客户要求说明数据来源,供应商又提示不得用于模型训练。此时企业如果没有保留版本、字段、样本来源、导入时间、模型训练批次和删除能力,就很难证明自己只做了有限使用,也很难向客户解释输出结果的权利风险。
行动建议
第一,做数据来源表:材料名称、来源主体、取得方式、合同或条款编号、是否含作品、个人信息、商业秘密、源代码或数据库权益。第二,做用途矩阵:内部测试、训练、微调、RAG、客户交付、公开展示、供应商再利用、跨境调用逐项勾选。第三,做退出和追责表:到期删除、撤回授权、权利投诉、客户审计、供应商违约、侵权赔偿和整改责任分别由谁处理。第四,禁止把口头确认当成授权依据;至少要留邮件、补充协议、后台截图或工单记录。
证据清单
建议保留采购合同、数据处理协议、网站条款截图、授权链、供应商权利声明、字段目录、脱敏规则、导入日志、训练批次记录、模型版本、访问权限、删除工单、客户审计问题和整改闭环。涉及个人信息时,还要额外标出处理目的、必要性、保存期限、境内外流转和用户权益响应路径。涉及作品、图片、文字、代码或数据库时,要单独核查复制、改编、汇编、信息网络传播和开源许可证义务。
常见问题
问:公开网页已经允许访问,还需要授权吗?不一定需要另签合同,但必须先核查条款、内容类型、抓取方式和用途。能访问不等于能批量复制训练,也不等于能商用输出。
问:供应商合同写了“可用于业务”,能不能训练模型?要看“业务”是否明确包含训练、微调、再利用、客户交付和转授权。没有写清时,建议先补充用途、保存期限、删除和责任条款。
问:已经混入训练集怎么办?先冻结新增导入,导出数据清单、训练批次和来源证据;再按高风险材料做删除、隔离、补授权或替换,不要只写一份内部说明。
最后提醒
这类问题不要等到模型上线后再补法务意见。真正可用的做法,是在数据进入训练链路前,把来源、用途、退出和责任写成表格,让业务、技术、法务、采购和供应商使用同一套事实底稿。以上是一般法律信息参考,不构成针对具体案件的法律意见,也不替代正式咨询。
如需个案分析,可通过知乎私信联系吕箐翎律师。
参考资料
- [1] 《中华人民共和国著作权法》
- [2] 《中华人民共和国数据安全法》
- [3] 《生成式人工智能服务管理暂行办法》