就在上周,一家由麻省理工学院(MIT)两位教授设立的创业公司,将 Facebook 告上了法庭,指控 Facebook 侵犯了他们的商业机密,还将其核心算法放在 GitHub 开源了,而开源的恰恰是深度学习框架 PyTorch 的一个关键库。
,
同时被告的还有这家名为神经魔法公司(NeuralMagic, Inc. )的前员工亚历山大·兹拉特斯基(Aleksandar Zlateski),如今他是 Facebook人工智能研究院的研究科学家。兹拉特斯基被指控违反了保密和竞业禁止协议。
2020 年 3 月 4 日,美国麻省地区法院公布了编号为”第 20-10444 号民事诉讼“的起诉书,原告神经魔法公司叙述了详细过程。[1]
神经魔法公司创办于 2017 年,创始人为 MIT 电气工程与计算机科学系教授尼尔·沙维特(Nir Shavit)[2] 和 MIT 计算机科学与人工智能实验室的研究科学家亚历克斯·马特维耶夫(Alex Matveev)[3] 。
他们的核心技术之一,是包含在编译器中的一套算法,这些算法具有很大潜力,它允许复杂的数学函数在 CPU 上就能高效运行,不需要使用 GPU 这样的专门硬件;还允许研究科学家使用比通常大得多的数据集,可以用在医疗保健、癌症筛查、电子商务等方面,让人工智能应用降低花费和硬件成本,更加普及。
亚历山大·兹拉特斯基早先是 MIT 的博士后,作为第一个正式员工加入了神经魔法。2018 年 3 月,他成为技术总监,基本年薪为 16.5 万美元加期权。在担任技术总监期间,兹拉特斯基有权限获得公司所有的商业机密、专有信息和商业计划,关键是他能够接触到同时也协助编写了编译器核心算法的源代码。
2019 年 7 月,兹拉特斯基离开神经魔法,加入 Facebook,并表示不会涉及到此前参与的编译器工作。神经魔法也选择信任他,因为有相关的保密协议,同时预期的工作内容也并不涉及编译器相关工作。
结果证明这种信任是错误的。不到 6 个月后,2019 年 12 月,Facebook 向世界宣布并开源了一个编译器,可以通过调查揭示,这其中包括了和神经魔法相同的专有算法。Facebook 甚至还在发行公告里向兹拉特斯基表示感谢:“团队认可并高度赞赏兹拉特斯基对稀疏内核和统一代码缓存的贡献。”
神经魔法究竟做了什么
尼尔·沙维特教授在 MIT 已经任教 30 多年,主要兴趣是设计,实现和推理多处理器算法的技术,尤其是多核机器的并发数据结构以及控制其行为的计算模型的数学基础。
2016 年,沙维特教授开始了新的挑战,开发人工智能系统来重建大脑中神经组织的连通性,被称为“提取大脑的连接图”。
当他和马特维耶夫教授一起在 MIT 实验室进行测试时,在大量神经生物学数据的基础上,他们发现,使用正确的算法,可以仅使用标准计算机在这些大型神经生物学数据集上运行神经网络,而不需要专门的硬件,而且能够实现非凡的速度。这促成了神经魔法公司的诞生,两位教授准备将他们的愿景变成现实并推向市场。
这意味着数据科学家可以通过 CPU 运行神经网络和推理引擎,而不是用 GPU 或 TPU 这样的专用芯片,大大降低了机器学习项目的硬件成本。另外,CPU 还可以访问更多的内存,不像专用硬件有内存的限制。神经魔法的技术,使得仅仅用软件和算法,就可以代替高成本的 AI 硬件。
而投资商也看到了这一技术的前景,公司进行了两轮融资,从 Comcast、NEA 等投资人那里累计筹集了 2000 万美元的风险投资。
官司之争
据起诉书称,2019 年 11 月,Facebook 在 Github 上披露了神经魔法的算法。一个月后,在西雅图的 TVM AI 开发者大会上,Facebook 公布算法开源,可以支持神经网络在 CPU 上高效运行。
一直到 2020 年 1 月,一个 LinkedIn 帖子才提醒到马特维耶夫教授,Facebook 已经盗用了神经魔法的算法。Facebook 把它开源的编译器称为“Sparse GEMM JIT”,在相关部分实现了神经魔法的算法。
Github 的修改历史也表明,它的最早发布者是 Facebook FBGEMM 软件包的负责人 Jongsoo Park,兹拉特斯基则被列为第一个代码审查人 [4]。而 FBGEMM( Facebook GEneral Matrix Multiplication,矩阵乘法)正是 PyTorch 框架的卷积库。[5]
2020 年 1 月 22 日,神经魔法书面要求 Facebook 删除 Github 有侵权的部分,而 Facebook拒绝接受。
神经魔法公司表示,兹拉特斯基违反了他在加入神经魔法时签署的保密协议,他和 Facebook忽略了从 Github 消除信息的请求。它要求获得三倍的实际损害赔偿,以及律师费和禁止进一步使用其商业秘密的禁令。
神经魔法还在起诉书里称,目前只能看到 Github 开源部分的内容,而兹拉特斯基可能还会向 Facebook 披露更多信息,在内部或未来的开源版本中使用,这些持续的披露会进一步损害神经魔法公司的市场和业务机会。
影响
对于 Facebook 而言,PyTorch 是其最受欢迎的深度学习框架。此次陷入诉讼,会对其未来造成多大影响还未可知。
2019 年 6 月,Facebook 就曾经涉及另外一场诉讼,普林斯顿大学的计算机科学家从一款名为 Planner 5D 的软件里,抓取了超过 45000 个文件,用它们来训练人工智能算法。这些信息组成了被称为 SUNCG 的数据集。
因为 Facebook 资助了普林斯顿大学的合作,SUNCG 数据集被用到了 Facebook 的虚拟现实公司 Oculus,并作为数据集资源办了一次数据竞赛。结果 Planner 5D 公司将 Facebook 和普林斯顿大学都告上了法庭。最后该数据集也被撤掉。
这其中体现了开源、AI 和学术所涉及到的复杂法律和伦理问题。开源的思维方式很常见,特别是在科学家和开发人员中间,也可以加快科学进步,但是需要这个算法和数据链条上的每个人都同意才行。
对于 Planner 5D 公司而言,它认为其对所创建的模型和场景拥有唯一所有权,这个所有权能够保证商业上的成功。对于神经魔法公司也是一样,本来 Facebook 是其专有算法的一个潜在大客户,结果因为员工被挖角跳槽,不仅赔了算法,还被开源了公之于世。
对于刚创业的商业公司而言,这可能是灾难性的事件,独有的算法或者数据都是 AI 时代的关键核心;而对于 Facebook 而言,虽然并没有变成私有,而是开源了算法或数据,但毕竟涉及知识产权的源头以及和法律的冲突。
在机器学习的社区里,大家讨论热烈,众说纷纭。
reddit 机器学习论坛的网友 TSM 认为,这个不涉及专利和版权,涉及的只是算法作为一种商业秘密的共享。商业秘密应该受到保护,它可以阻止大公司挖角小公司的员工以窃取商业秘密,比如丰田曾花很多时间聘请福特公司的一名高级员工,了解他们如何完成一些特殊的制造过程。
网友程序辣椒认为,目前至少有 20 家初创公司在做类似非 GPU 芯片上进行稀释计算的事情,只拥有算法对于公司而言不是一个好基础,除非有特殊的实现方法,没有人能够复制,否则投资价值不大。
网友 hitaho 则说,我会把代码 fork 一份,先下载下来再说。
引用出处:
[1] https://www.docketalarm.com/cases/Massachusetts_District_Court/1–20-cv-10444/Neural_Magic_Inc._v._Facebook_Inc._et_al/1/
[2]
[3]
[4]
[5]
,2020-03-12 14:06:33
请登录之后再进行评论