公开网页和供应商数据训练模型，先查哪3个授权边界？

创建：2026-06-01 更新：2026-06-01 江苏鑫律联律师事务所

知乎知识产权数据合规

这是一篇知乎稿件。为便于检索、归档与阅读，收录于“公开发声”。

先给结论：不能把“网上能看到”或“供应商给了”直接当成可训练、可微调、可商用的授权。

先给结论：不能把“网上能看到”或“供应商给了”直接当成可训练、可微调、可商用的授权。企业拿公开网页和供应商数据训练模型，第一天至少要查三个边界：来源边界、用途边界、退出和追责边界。

这个问题的风险不在于一句“AI能不能训练”，而在于以后客户审计、权利人投诉、供应商解约或监管问询时，企业能不能拿出合同、条款、数据清单、处理日志和删除记录。吕箐翎律师处理知识产权和数据合规问题14年，接触过11,000+件咨询和案件线索；我的经验是，训练动作越早，证据表越要先做。

误区：公开可见不等于自由训练

很多团队会把公开网页、开放论坛、行业报告、图片素材、代码片段和供应商交付数据放在一个文件夹里，认为只要不是偷来的，就能进入训练集。这个理解不稳。公开访问只说明能看到，不当然说明可以复制、抓取、清洗、训练、微调、对外商用或转授权给客户。供应商交付也一样，合同可能只允许项目分析，不允许模型训练；可能允许内部测试，不允许把结果交付给第三方；也可能要求到期删除、限制再利用或禁止用于竞争产品。

判断一：来源边界

先问材料从哪里来。公开网页要看网站条款、robots 或平台规则、内容类型和抓取方式；供应商数据要看权利来源、授权链、保密义务和转授权条款；客户数据要看客户委托范围、个人信息处理关系、商业秘密和删除要求；开源代码或开放数据还要看许可证、署名、相同方式共享、商用限制和衍生作品义务。来源表不要只写“公开数据”“合作数据”，要写到具体网址、合同、账号、日期、字段和责任人。

判断二：用途边界

同一份材料，用于内部检索、模型预训练、专项微调、RAG 知识库、客户项目交付、公开演示、跨境调用和供应商再训练，法律含义不一样。合同里写“用于项目服务”不一定覆盖“用于训练通用模型”；写“可使用数据”也不一定覆盖“可保留、可复制、可转授权、可用于新客户”。如果用途表没有拆开，后面最容易出现业务说已经授权、法务说授权不明、技术说已经混入训练集的局面。

场景：供应商数据进了训练集

假设一家企业采购行业数据包，用来训练客服模型。合同只写了“用于本项目分析”，没有写训练、微调、输出商用、删除退出和侵权追偿。模型上线后客户要求说明数据来源，供应商又提示不得用于模型训练。此时企业如果没有保留版本、字段、样本来源、导入时间、模型训练批次和删除能力，就很难证明自己只做了有限使用，也很难向客户解释输出结果的权利风险。

行动建议

第一，做数据来源表：材料名称、来源主体、取得方式、合同或条款编号、是否含作品、个人信息、商业秘密、源代码或数据库权益。第二，做用途矩阵：内部测试、训练、微调、RAG、客户交付、公开展示、供应商再利用、跨境调用逐项勾选。第三，做退出和追责表：到期删除、撤回授权、权利投诉、客户审计、供应商违约、侵权赔偿和整改责任分别由谁处理。第四，禁止把口头确认当成授权依据；至少要留邮件、补充协议、后台截图或工单记录。

证据清单

建议保留采购合同、数据处理协议、网站条款截图、授权链、供应商权利声明、字段目录、脱敏规则、导入日志、训练批次记录、模型版本、访问权限、删除工单、客户审计问题和整改闭环。涉及个人信息时，还要额外标出处理目的、必要性、保存期限、境内外流转和用户权益响应路径。涉及作品、图片、文字、代码或数据库时，要单独核查复制、改编、汇编、信息网络传播和开源许可证义务。

常见问题

问：公开网页已经允许访问，还需要授权吗？不一定需要另签合同，但必须先核查条款、内容类型、抓取方式和用途。能访问不等于能批量复制训练，也不等于能商用输出。

问：供应商合同写了“可用于业务”，能不能训练模型？要看“业务”是否明确包含训练、微调、再利用、客户交付和转授权。没有写清时，建议先补充用途、保存期限、删除和责任条款。

问：已经混入训练集怎么办？先冻结新增导入，导出数据清单、训练批次和来源证据；再按高风险材料做删除、隔离、补授权或替换，不要只写一份内部说明。

最后提醒

这类问题不要等到模型上线后再补法务意见。真正可用的做法，是在数据进入训练链路前，把来源、用途、退出和责任写成表格，让业务、技术、法务、采购和供应商使用同一套事实底稿。以上是一般法律信息参考，不构成针对具体案件的法律意见，也不替代正式咨询。

如需个案分析，可通过知乎私信联系吕箐翎律师。