GitHub 在上周推出了一个名为"GitHub Copilot"的工具,此工具使用了机器学习技术来提供代码建议/自动补全,并因此引发了不小的争议。原因是许多开发者认为,GitHub Copilot 宣称的基于公开代码训练其实是在未遵循开源许可证的情况下,肆意“抄袭”开源代码。
个别比较激进的开发者为了抗议 GitHub 未经授权和许可便使用受版权保护的源代码作为 GitHub Copilot 的训练数据,宣布弃用 GitHub。
在众多的质疑和批评声中,被讨论较多的一个问题是:如果 GitHub Copilot 的训练模型使用了遵循 GPL 的软件进行训练,那么会发生什么?
题为"Is GitHub a derivative work of GPL'd software?(GitHub 是 GPL 软件的衍生作品吗?)"的博客文章描述了对这个问题的一些想法。下面是对这篇文章的一些整理。
GPL 的一系列许可证被认为是"Copyleft"许可证,其特点是具备“传染性”。特别是,Copyleft 作品的常见特征是要求“衍生作品”使用与原始 Copyleft 许可相同的条款发布其新作品。
这就引申出了一个有趣的法律问题:机器学习系统生成的作品,甚至是机器学习系统本身,是否属于“投喂”给训练模型的数据的衍生作品?如果答案为“否”,是不是意味着可以把 GitHub Copilot 作为一种手段,借此将自己想使用的 GPL 代码进行“清洗”,从而达到无需遵循其许可协议的目的。
但是,如果答案为“是”呢?也就是说机器学习模型生成的作品属于输入数据的衍生作品,这样一来,GitHub 本身也就可以被认为是 Copyleft 软件的衍生作品。因为 GitHub 的博客文章在说明"Copilot"的训练数据时,曾发表如下的表述:
“在 GitHub Copilot 的早期开发过程中,作为内部试用的一部分,近 300 名员工在日常工作中使用了它。”
如果 300 名 GitHub 员工将 Copilot 用作其日常工作流的一部分,他们很可能已将 Copilot 生成的代码整合到 GitHub 的几乎所有软件资产中,后者为用户提供了 Web 服务。如果训练模型是在遵循 AGPL 的软件上进行训练,并且 Copilot 使用该模型创造了一个衍生作品。那么,所有 GitHub 用户有权根据 AGPL 的条款获得 GitHub 的源代码副本——亦即倒逼 GitHub 被迫成为了一个开源项目。
事实上,这里面还涉及到了机器学习的伦理问题,被纳入机器学习训练数据的内容的所有者应该有什么权利?
举个例子,如果我想发表一个不希望被纳入训练模型的作品,或者说如果自己的作品被用于训练模型,但能让公众有权访问此模型,是否可以实现?是否应该允许我这样做?如果被使用的作品是我的个人信息,并且在我不知情或未经同意的情况下被收集,怎么处理?如果这些被收集的信息被服务商滥用,甚至是用在一些对自己不利的场景,比如在做贷款决定时,怎么办?如果它被用来做违背整个社会利益的事怎么办?