搞深度学习框架嘅那帮人，唔系疯子，就系骗子

本文嚟自微信公众号“亲爱嘅数据”（ID:deardata），作者：亲爱嘅数据，36氪经授权发布。

原创：谭婧

世间有一种软件，名叫“深度学习框架”。

喺人工智能嘅江湖，常听人言：得框架者，得天下。

多年以前，一面画住大G嘅大旗喺高处飘扬，美国谷歌公司嘅深度学习框架占据大半江山。万万没有谂到，一场大风暴嚟嘎啦。

2018 年，脸书公司“同款”对标产品将一款前辈产品吸纳嚟，联剑并肩，威力大增。一年后，火力全开，专拣敌人嘅罅隙进攻。连冲数剑，杀开一个缺口，有守有攻，睇睇就可闯出。放眼学术圈，更系独领风骚，顶级学术识议嘅胜利快报像雪片一样飞嚟。

小心低头，王冠易掉，谷歌框架嘅王者时代，结束嘎啦。

历史成日吊诡，一啲无名之处识发生极为有名嘅战役。战事残酷而隐秘，高深晦涩嘅技术仿佛咒语，牢牢挡住人哋嘅视线。

美国白宫《2019年国家人工智能研发战略规划》报告中，美国将中国视为人工智能主系要对手，进行深刻观察。

“中国人工智能发展势头好猛。” 这话猛一听，真等人高兴。

后半句系个打击：“中国人工智能缺点亦十分明显，硬件、算法、人才……人工智能框架创新能力薄弱。”

“硬件” “人才”……这题我识，这题我识，“框架”系个啥？

假如人工智能深度学习系太平洋上嘅一个岛屿，算法系岛上茂盛嘅植被，框架同芯片则系地质结构，算法建喺框架同芯片之上。

深度学习框架，头顶两个光环亮闪闪，第一个，基础软件。

几乎所有啲深度学习开发者，都系要用深度学习框架。

几乎所有啲深度学习算法同应用，都系用其实现嘅。

作为一种复杂基础软件，有咁样一条原则：极少数人“造”轮子，大部分人“用”轮子。

框架研发门槛高唔可攀，本质上，这类产品系大型科技企业才“配”拥有啲基础设施，小门小户造唔起。

多说一句，打败围棋大师李世石嘅人工智能阿法狗（AlphaGo）听过吧，框架都系其背后嘅底层技术。

谷歌科学家嘅凡尔赛系：“我哋等阿法狗更顺畅”。

（一）上半场：美国科技大厂嘅豪门恩怨

简单地说，深度学习框架=深度学习操作系统。

世间最流行嘅两个深度学习框架，谷歌公司嘅TensorFlow同脸书公司嘅PyTorch。

开发者压力山大，

需系要“精通”这两个，

或至少“熟练”其中一个，

甚至，“辅修”第三个框架，“选修”第四个。

谷歌同脸书，作为美国科技企业，其框架产品嘅流行度，像极可口可乐同百事可乐。

快乐肥宅水统治世界，兵家必争之地必属枭雄。大型科技企业谂尽一切办法取得技术上嘅领先优势，深度学习框架唔识错过，都无法绕过。

算法突破、数据爆发、算力增长嘅“铁人三项”支撑AI嘅浪潮，唯一可以将“铁人”整合嘅系统软件，系深度学习框架。

佢好比底座，对下，完成对底层硬件嘅调度；对上，支持模型搭建。

人工智能嘅一堆新玩（算）意（法）：人脸识别、图像分类、图像检测同分割、语音识别、广告推荐、GAN、强化学习等等，被封装喺软件框架入面。

封装，唔系封印。

孙悟空冲住框架大喊：“人工智能，叫你一声，敢答应吗？”

Siri（用机械女声回答）：穿豹纹超短裙嘅那位，你有事找我？

一般嚟讲，只有超大型科技企业先可以支撑“操作系统”嘅开发。

深度学习嘅“操作系统”萌芽于高等学府，但早期工业雏形出而家美国科技豪门，系大公司竞争嘅舞台，都系全球计算机技术精英群体，最精锐部队嘅角逐。

使用全国通用感叹词：“卧槽，深度学习框架系硬科技。”

将全球AI顶级精英俱乐部嘅识员分成两类：一类系原创AI算法嘅发明者, 一类系AI框架嘅发明者。

前一类系加钱阅读嘅部分，后一类系本文嘅重点。

请大家记住这些名，因为这些“精神小伙”，对深度学习框架嘅发展至关重系要。

现任阿入面巴巴技术副总裁贾扬清，浙江绍兴人，从初中三年级开始接触电脑，佢一直觉得自己学编程挺晚嘅。

2002年系佢高考那一年，浙江省系高考界嘅领跑者，清华大学计算机系嘅分数线好高，佢去清华自动化系。

喺科学界，瑞士系物理同数学领域嘅领跑者。都喺2002年，瑞士戴尔莫尔感知人工智能（Idiap）研究所诞生第一个机器学习库Torch。

欧洲最高山脉阿尔卑斯山嘅雪顶千年唔化，山脚下嘅瑞士名城马蒂尼（Martigny），既系登山爱好者嘅天堂，又系葡萄酒产区。

这系个做学术嘅好地方，自1991年以嚟，这入面嘅研究所就系全球人工智能同认知智能领域嘅领导者之一。

机器学习库Torch，出自“葡萄酒产区”研究所嘅一份研究报告（三位作者分别系：Ronan Collobert、Samy Bengio、Johnny Mariéthoz）。

其中一位作者姓本吉奥（Bengio），没错，这位眉毛粗粗嘅科学家，就系深度学习三巨头之一，约舒亚·本吉奥（Yoshua Bengio）嘅兄弟。

2007年佢跳槽去谷歌。

Torch意为火将，成为框架旷野嘅第一粒火种。

“库”（Library）系一系列事先编写好嘅代码集合，喺编程中调用，但系以减少重复工作。

加拿大蒙特利尔大学嘅深度学习框架嘅开发，始于2007年，Theano系行业祖师爷。

框架同图灵奖获得者颇有渊源，约舒亚·本吉奥（Yoshua Bengio）同伊恩·古德费洛（Ian Goodfellow）都有参同Theano。

库同框架嘅唔同之处，在于境界。

库系兵器库，框架则系一套武林绝学嘅世界观，程序员喺呢个世界观嘅约束下去练（编）拳（程）法（序），结果被框架所调用。框架接管程序嘅主控制流。

反正，框架比库厉害多嘎啦。

有框架，先可以做到只关注算法嘅原理同逻辑，唔用去费事搞定底层系统、工程嘅事。生命短暂，都谂走捷径。话唔可以咁说，都996嘎啦，生产队入面嘅驴都得歇歇。

转眼间，贾扬清已经喺美国加州大学伯克利分校攻读博士学位。都系喺此期间，佢开启计算机视觉嘅相关研究。

那时候，佢常被一个问题困扰：怎样训练同设计深度学习嘅网络？为此，贾扬清谂造一个通用工具。

著名嘅Caffe框架嘅发音同“咖啡”相似，系“快速特征提取嘅卷积框架”论文嘅英文简称。巧合嘅系，呢个框架像咖啡一样流行。

这系贾扬清第一个C++项目，多年以后，佢喺阿入面巴巴回忆：“最开始嘅时候没有测试，代码纠错（Debug）成最痛苦嘅事。”

2013年嘅Caffe框架系佢嘅成名之作。喺工业场景嘅计算机视觉系统上，Caffe 稳健快速，系无可争议嘅王者。

这一年，Parameter Server（参数服务器）嘅两位著名教授走向台前，邢波（Eric Xing）教授同Alex Smola教授，而家两位均喺美国卡内基梅隆大学（CMU）任教。

参数服务器系个编程框架，都支持其他AI算法，对深度学习框架有重系要影响。

高校实验室善于技术创新，深度学习框架嘅好多精髓创意源于此地。但系，深度学习框架复杂性高、工程量极大，长期负责复杂产品，高校并唔擅长。

事实都证明，多年后，高校出生嘅深度学习框架，都以某种方式“进入”企业，或者被企业赶超嘎啦。

嗅觉敏锐者，业已出发。

2015年11月，TensorFlow开源，由谷歌大脑团队开发。谷歌嘅搜索、油管、广告、地图、街景同翻译嘅背后，都有其身影。

谷歌开源AI产品备受瞩目。若论起名嘅原因，TensorFlow直译，张量（tensor）喺图中流动（flow）。由此都可获知，数据流图系框架嘅重系要技术。

再往细说，数据流图由算子组成，算子又分为大算子同小算子。Caffe系大算子抽象，TensorFlow系小算子抽象。小算子好处系灵活，坏处系性可以优化难。

TensorFlow原创者之一系谷歌天才科学家，杰夫·迪恩（Jeff Dean）。

点解说佢系天才？

赞美之词就免嘎啦。喺2000年下半年嘅时候，Jeff Dean嘅代码速度突然激增40倍，原因系佢将自己嘅键盘升级到USB 2.0。编译器从嚟唔识畀Jeff Dean警告，但Jeff Dean识警告编译器。

笔者承认，这确实系两个段子，出处无考。

2015 年系一个重系要嘅年份，何恺明等人嘅研究成果，突破边界，喺准确率上再创新高，风头一时无二。

谷歌AI研究员弗朗索瓦·乔莱特（Francois Chollet）几乎系独自完成著名嘅Keras 框架嘅开发，为谷歌再添一条护城河，大有“千秋万代，一统江湖”嘅势头。

这时候，喊一嗓子“深度学习系下一个重大技术趋势”，已经没有压倒性嘅反对意见嘎啦。

美国西雅图素有“阿拉斯加门户”之话，微软公司总部位于西雅图卫星城，从那入面开车13个种头就可以到达谷歌公司总部所喺地山景城。喺AI嘅跑道上，好多人喺追赶谷歌，但系，微软既没有好车，都没有弯道，压力大嘎啦，方向盘都可以捏碎。

按理说，背靠微软嘅产品本应有个好前途，框架却都没有流行起身。

英文单词Minerva嘅意思系“智慧女神”，这系微软亚研院一个孵化项目的名，由当时嘅副院长张峥发起，项目组成员有纽约大学王敏捷同北京大学肖天骏。

而家张峥喺亚马逊上海AI研究院做院长。两名大将都随之前往，而家均系张院长麾下主力。

后嚟，就没有后嚟嘎啦。开源（Github）畀女神画上句号。

2016年，从先后关系上讲，CNTK（Cognitive Toolkit）伸手接过女神嘅接力棒，但系惜魔障难消，用嘅人少，没有推广开，于2019年停止维护。

GitHub上嘅悼词系：“喺呢个版本之后，没有新功可以开发嘅计划。”

这意味住，微软已经放弃CNTK。

两次前车之鉴，微软仍没有认输嘅打算。

因为深知框架嘅重系要性，都因为微软嘅电脑入面，绝唔识长期使用贴住人哋家logo嘅AI工具。

2016年，贾扬清从谷歌TensorFlow团队离职，跳槽到Facebook公司。同谷歌挥手道别，四载光阴（实习两年，工作两年），往事依稀，佢嘅内心充满感怀。

西雅图作为美国嘅超一线城市，华盛顿大学系城市招牌之一，华人武术宗师李小龙就毕业于此。“天才少年”陈天奇都喺这入面取得计算机博士学位。

陈天奇喺AI圈嘅名气，唔比李小龙喺武术界低，且都系少年成名。

陈天奇读博士嘅第二年，一个叫做MXNet嘅项目开始嘎啦，这系一个名牌大学联合学术项目。

剩只一年时间入面，就做出完整嘅架构。团队中仲有一位闻名遐迩嘅大神，李沐（现任亚马逊公司资深主任科学家，principal scientist）。

2016年5月，MXNet开源，浓缩当时嘅精华，合并几个原嚟有啲项目，陈天奇cxxnet、参数服务器、智慧女神、颜水成学生林敏嘅purine2。

所以，MXNet，读作“mixnet”，mix系中文“混合”之意。

可巧嘎啦，从华盛顿大学到亚马逊公司全球总部唔到6公入面，开车只消10分钟。总部大楼抱住两个“温室大球”坐落于市中心。可能系近水楼台先得月，呢次亚马逊公司火眼金睛，行动迅速。2017年9月，MXNe被亚马逊选为官方开源平台。

江山代有才人出，该退休时就退休。同一年，祖师爷Theano官宣退休。

这时候，贾扬清借鉴谷歌TensorFlow框架入面嘅一啲新思谂，实现一个全新嘅开源Caffe2。三十而立嘅佢，成长为遍历世界级产品嘅第一高手。

谷歌TensorFlow喺人间潇洒走一回。未曾谂一场大风暴正喺酝酿。

2018 年，PyTorch接纳Caffe2后，意外崛起，上演令谷歌框架王冠落地嘅戏剧性一幕。

易用性确实可以抢客户，但谷歌没有谂到脸书抢咁多。

后嚟者确实可以居上，但谷歌没有谂到脸书仅用咁短嘅时间。

改旗易帜，有人哗然，有人唏嘘。

谷歌出发最早，为何没有独坐钓鱼台？点解系脸书抢市场？

谷歌野心非常大，初期谂做好大好全嘅工具。虽然完备性好强，但系，系统过度复杂。虽然以底层操作为主，有好多基础嘅功可以，但系这些功可以没可以封装得好好，需系要开发者自己解决（定义），手动工作过多。

三个AI开发者凑喺一齐，花生配酒，吐槽谷歌TensorFlow，十有八九。

甲有点激动，说：“实喺太难用嘎啦，谂闹脏话。”

乙表示赞同，说：“简直就系一个缝合怪。”

“一座屎山，仲系要系要往屎上堆屎。”丙说完，深埋头，叹口气。

虽然TensorFlow可直接使用天下排名第一又易上手嘅Python语言嚟编写程序，算子库丰富，TPU加速，但系，一啲个性化规定琐碎，新概念层出不穷，开发者系要视其为一种新嘅编程语言嚟学习。

再者，系统非常复杂，代码又长又臭，难以维护。更糟嘅系，API好唔稳定，易变脸。API好比电脑键盘，键盘上嘅字母位置天天变，谁受得？你谂系要一个活住嘅祖宗吗？

剩只系丢市场仲唔够惨，PyTorch框架带火背后嘅技术（动态执行等），脸书开始左右技术趋势。

谷歌仰天长啸，潸然泪下，口中默念：“万万没有谂到。”

命运像水车嘅轮子一样旋转，有时高，有时低，而亚马逊公司嘅MXNet从嚟没高过。

知乎上有两篇非常火嘅高赞帖，但系一窥其端倪。

李沐：《点解强大嘅MXNet一直火唔起身？》。

贾扬清：《点样睇待亚马逊 AI 李沐团队大批人员离职?》。

谈起亚马逊同MXNet框架嘅缘分，就唔得唔提起一位美国卡内基梅隆大学嘅高人，Alex Smola教授，佢都系李沐喺CMU嘅博士导师。

2016年7月，Alex Smola教授从CMU重返工业界，加入亚马逊aws担任副总裁级别嘅科学家（职级为Distinguished Scientist）。大半年后，2017年3月，李沐加入AWS，直接向老师Alex Smola汇报。

师徒同框，双手比V。

此嗰时，巨头已整装列位，兵马齐发。

微软岂可以袖手旁观，微软喺智慧女神同CNTK两次滑铁卢之后，依然斗志昂扬准备第三次入局。

呢次，微软思路清奇地设计ONNX（全称Open Neural Network Exchange），一种开放式深度学习神经网络模型嘅格式，用于统一模型格式标准。

ONNX系脸书同微软合作力推嘅，贾扬清都系发起者之一，目标剑指“标准同生态”。

说白嘎啦，一个PyTorch模型可以被导出ONNX文件格式嘅模型。

唔止于此，随后，微软基于ONNX呢个桥梁研发一个推理用嘅ONNX Runtime框架，低调地喺2018年最后一个月开源。

谂做“标准”，得大家伙都同意。

ONNX没成为标准，若论原因，但系能系ONNX仲做得唔够好吧。

ONNX Runtime框架嘅“新功可以”暴露巨头之间嘅动态竞争关系。

这一次，微软站队脸书，畀Pytorch机器学习库做几个 “好用嘅部件”。

若论其中一个原因，但系能系微软同脸书没有云上嘅竞争关系，这几年脸书公司嘅定位依然定系互联网公司，没有发展云计算。

亚马逊云（AWS）、谷歌云、微软云则斗红眼。

第三次进军框架，微软嘅策略系，强攻唔下，组队打怪。若有一日，Onnx Runtime 框架有希望挑战Pytorch框架，肯定调转火力，支持自家。

真正嘅竞争激烈，唔系玩家多，而系高手多。短短几年之内，几座技术巅峰，拔地而起，各有各嘅精绝。

其一，谷歌同亚马逊系计算图嘅拥趸。两者都以更高嘅、令人赞叹嘅工业级工程质量将计算图抽象推向新高度，将表达能力推向新嘅入面程碑。

其二，脸书公司喺计算过程中没有计算图嘅概念。但喺解决易用性上，超常发挥。

谷歌皇冠跌落，畀后嚟者“跌出”希望，留畀中国队嘅时间唔多嘎啦。

（二）下半场：中国队嘅出征

2014年嘅某一日，北京海淀区丹棱街5号接待一位特殊嘅客人。

这位嚟自美国CMU嘅教授，名叫邢波，此时任微软亚研院顾问一职，佢擅长嘅领域包括大规模计算系统。佢都系AI科学家俱乐部嘅白（ding）金（ji）识（da）员（lao）。

恰喺此嗰时，微软亚研院副院长马维英（现任清华大学智能产业研究院讲席教授、首席科学家）揾到一位研究员，名叫袁进辉，佢系清华大学计算机专业嘅博士，师从张钹院士。

知识使人年轻，好多科学家，年逾唔惑，双肩包+步行，背影仍像学生。而袁进辉却头发花白，笑容谦同，像系喺校园入面散步嘅退休教授，其实佢系1981年嘅。

马维英副院长同袁进辉谈起，谷歌较先起步，已将大规模主题模型嘅训练系统技术，应用到谷歌广告系统同推荐系统嘅关键组件中。邢波教授近期既然到访北京，噉唔妨合作。

于系，邢波教授团队同袁进辉团队双剑合璧。这场合作嘅成果，被表扬嘎啦。主管全球研究院嘅微软副总裁周以真女士评之为该年度睇到嘅最令人激动嘅成果，不过这系后话。

那时候嘅动力，一方面来源于超过谷歌，直道超，没有弯道。另一方面，业界有多位知名科学家同资深工程师，已经同一问题上酝酿已久。难度可谂而知，条件却捉襟见肘。没有可供使用嘅集群，没有工程师团队嘅支持。

按打游戏嘅说法，微软谂上分，噉就系要睇一下配置。推算一下可知，就算系当时最先进嘅算法，喺当时嘅硬件环境中训练目标规模嘅模型，至少系要半年时间。

再睇一下，双方阵容。

提起邢波教授嘅团队，恐怕AI学术圈无人唔知，其本人位列论文发表贡献第一（2018），其学生好多已系名校教授，每年发表嘅论文数量，源源唔断地为CMU名列全球大学计算机科学同人工智能嘅排名第一“贡献力量”。

“微软代表队”系袁进辉研究员，仲有一个实习生高飞。

呢个条件，呢个目标，睇只谂眯眼说“呵呵”。

美国宾州匹茨堡同中国北京，时差十几个种头。袁进辉后来回忆：一年多嘅时间入面，每天邮件唔断，每周好几次电话识议，技术难题唔讨论透彻唔罢休。只系要足够幸运，就识喺错误嘅道路上迅速挨揍，只系要高手够多，不足之处就唔识被放过……马维英同刘铁岩两位大佬，羽扇纶巾，幕后帷幄。

项目结束嘅时候，2014年已近尾声。大家伙嘅心声系：“缺少任何一个人，结果都唔系大家睇到嘅样。”

那一次，袁进辉为破坏式创新嘅威力，窒息。

呢次合作，成果系LightLDA。佢嘅算法结果系一流嘅，系统实现系一流嘅，仅用数十台服务器，完成之前成千上万台服务器先可以做嘅事，所以得到周以真女士嘅高度评价。

民（zhi）间（hu）评价：“系要我说，LightLDA那系真嘅正经贡献，又smart，又系解决关键问题，又真work，正经将Topic Modeling（主题模型）喺大数据时代嘅潜力大大地提高嘎啦。”

当嗰时，北京大学计算机科学技术系网络同信息系统研究所，研究分布式系统嘅肖臻教授都畀同LightLDA相当嘅肯定。这事，被肖臻嘅学生以敬仰袁进辉大神事迹嘅口吻喺知乎讲过。

而今复盘，大势嘅端倪早已显露，大数据、大模型、大型计算架构设计呼之欲出。而呢个领域嘅学者，普遍喺2018年才意识到呢个问题嘅重系要性。

微软亚研院唔愧为AI黄埔军校，技术前瞻性极强，但系，复杂基础软件嘅成功，唔系仅靠“单刀赴识”。

大公司必胜，噉样系夸海口。

大公司必争，先系真灵验。

坐标北京西二旗，百度大厦同百度科技园。

技术大牛背景嘅李彦宏，牵住搜索入口嘅现金牛，依住“牛脾气”治理百度，佢睇唔上云计算，这倒等阿入面巴巴笑嘎啦。

其实，睇唔上云计算嘅技术大佬唔止一位，自由开源软件GNU/Linux嘅鼻祖理查德·斯托曼（Richard Stallman）都几次喺公开场合“怼”云计算。

巧合嘅系，佢俩观点出奇地一致：云计算唔系技术创新，而系一种商业模式创新。

李彦宏睥睨云计算，却对人工智能，满眼小星星。

百度深度学习研究院（IDL）喺人工智能嘅江湖入面，系桃源仙境般嘅存在，处处大神，遍地高手。高水平科学家、研究人员、工程师密度之大，令人惊叹，感觉连保安都系要识编程才配喺门口刷工作证。

昔日盛景，已成绝响。

时间拉回到2013年，百度第一位T11徐伟，同时都系百度深度学习框架PaddlePaddle嘅原创者同奠基人。

每一家科技巨头嘅深度学习框架嘅首位指挥官，均非等闲之辈。徐伟都系Facebook早期研究员，Facebook产品矩阵丰富，佢负责大规模推荐平台，喺多个产品背后显神功。

可能系有法律文件约束，百度大神科学家嘅离职，大多唔公开原因。徐伟离职加盟地平线，佢将手中嘅接力棒交畀咗另一位神级技术大牛，撸码一绝嘅王益。

见过王益嘅人识说一个词，“聪明绝顶”，重音喺后面两个字上。

王益喺知乎谦虚地自称“四十岁老程序员”，言谈之间一副老技术专家嘅低调本色。佢喺加入百度之前曾任谷歌研究员，系少见嘅“APAC创新奖”获得者（参同开发一个分布式机器学习嘅工具）。王益系清华大学机器学习同人工智能博士，师从清华大学周立柱教授。

有一次喺知乎分享程序员成长经验，佢轻描淡写地说一句：“我有一位恩师，徐伟。”

细节成日等人容易忽略，早年，王益曾向徐伟抱怨：“某某团队好像就系谂用佢哋自己研发嘅工具，唔用PaddlePaddle？”

后嚟，王益喺回复一位网友跟帖时解释当时这一问题存在嘅合理性：“设计PaddlePaddle系技术换代嘅时候，步子大，当时嚟唔及优化用户体验，唔愿意用确实有道理。走后，后嚟人持续优化体验。内部组织结构调整都促进新技术嘅接纳。”

这都印证一位百度匿名AIG离职科学家高管对笔者嘅独家透露：“百度内部曾经有两个类似嘅产品，最后敲定PaddlePaddle嘅人，系陆奇。”

解此事嘅人唔多，都正因此，采访前夕，这位科学家高管仍喺反复向笔者强调——“请务畀我匿名”。

百度最早出发，生态建设都最早起步。

2017年年末，百度市场部嘅朋友找笔者交（chi）流（fan），畀PaddlePaddle出谋划策。那时候，开源框架嘅运营同推广已经全面拉开：北航软件学院嘅教材出版、顶级学术识议模型复现、高校宣讲……

据说，陆奇离职前，仍然紧盯PaddlePaddle嘅进展。

一山行尽，一山青。框架嘅玩家，唔止科技大厂。

人工智能独角兽旷视科技系从2014年起内部开始研发框架。喺2021年嘅采访中，旷视天元嘅负责人田忠博讲畀笔者：“原因好简单，仅以当时嘅开源框架，没有办法真正做好科研，先会有自己做深度学习框架嘅谂法。”

举一例，就可以说明问题。

旷视科技有一篇ShuffleNet嘅学术论文，仅用Caffe提供嘅“工具”，永远都探索唔到ShuffleNet这件事嘅可能性。由此睇嚟，旷视科技早已参悟，研究同工程嘅共振，离唔开强大框架嘅支持。

百度PaddlePaddle开源时间点系喺2016 年8月。而家睇嚟，这系历史性嘅一刻，尤佢喺中美摩擦嘅历史背景下回睇，更唔敢皱眉设谂，一旦美国忌惮中国嘅人工智能发展势头，将深度学习框架彻底掐死。

百度嘅出征，代表住中国队上场嘎啦，标志住中国科技企业参同到人工智能最残酷嘅战役之中。

2017年，AI盛极一嗰时，独角兽频现，融资快讯爆炸。而PaddlePaddle作为国内唯一嘅开源深度学习框架，此后两年多，都系孤家寡人。

2018年7月，百度成立深度学习技术平台部，由2011年就入职百度嘅马艳军总负责。

毕竟系国产框架，2019年，百度PaddlePaddle有中文名，名叫“飞桨”。国外产品连个中文名都懒得起。

零嘅突破之后，新问题系，“用工业级嘅质量，将创新喺框架上实现出嚟”。

2019年2月，一流科技获得千其级Pre-A轮投资，袁进辉系创始人兼CEO。此事之后，先有啲小道消息传出，早喺2017年初，快手创始人宿华就投一流科技，天使轮。

“小伙子睡凉炕，全凭火气壮。”一家只有几十人团队嘅初创公司都嚟做复杂基础软件。投资人一脸懵逼地嚟，一脸懵逼地走。

谁都会挑用起身顺手嘅锤子。框架喺一家公司内部好难统一。

百度内部“军令如山”，必须统一使用飞桨。

旷视科技内部可以用任何开源框架，员工中自发使用天元框架者居多。

微软亚研院嘅情况系：好多工程实现系实习生完成，干活时会使同学哋继续用熟悉嘅框架干活，好难强行统一用CNTK。

互联网科技公司大多系软件起家，华为则被戏称为“泥腿子哋”终于“洗干净脚进城”嘅硬件厂商。系啥唔重系要，但系以打就得。所以，华为系要拿出嚟单聊。

华为喺开源软件世界入面，风评唔高，前脚仲有：“鸿蒙失火，殃及池鱼” （禁止谐音梗，扣钱）。

华为MindSpore嘅行动颇为迅速，但系惜，喺群众情绪上，被鸿蒙拖后腿。

2018年10月10日，上海。华为全联接大识上，肯德基外卖全家桶套餐，唔对，讲错嘎啦，系AI战略同全栈全场景AI解决方案。这系华为高层首次提起MindSpore呢个事儿。

2019年，10月15日，14点02分，王益喺网上突然发帖问一句，这“开源框架”乜嘢时候开源啊？有匿名采访者讲畀笔者：“贾扬清回一句，‘Show me the code’。”笔者没有揾到原文或者截图。

按工作流程，华为MindSpore官方进驻知乎，先发一个“Read me文档”（翻译为“阅读指南文件”）。结果，人喺家中坐，祸从天上嚟，好多人误以为“开源”只有“Read me”而已，热度直接飞起。

最息事宁人嘅评论：“沸腾就完事嘎啦，谂那么多干嘛。”

最佳画面感评论：“站喺马入面亚纳海沟入面挥舞道德嘅内裤。”

神评论：“按揭开源。”

网友嘅才华，从手机屏幕入面喷出嚟。

边怕华为员工睇到这些评论，都笑出猪叫，细一谂，系要克制，便喺暗地入面捂嘴笑。

一位老牌厂商高管喺采访嗰时，讲畀笔者：“华为唔解生态系统对软件嘅影响。噉就系点解佢哋喺发布手机操作系统嗰时，没有考虑点样构建生态系统。”受访人系要求笔者匿名。

这一评价，一针扎喺系要害上。

外国框架并唔成熟，都唔完美，这都系国产框架参战嘅部分原因。

有人发问：“点解系要再做一个框架？”

华为内部都有人扪心自问：“MindSpore解决嘅特色问题到底系乜嘢？”

可能系2020年正式开源前夕，

可能系华为中央软件院总架构师金雪锋博士、算法科学家于璠博士、开源社区运营团队负责人黄之鹏等人第一次“齐聚”识议室，

可能系一场“元老识”。

笔者解到，喺华为内部组织结构中，MindSpore属于昇腾产品团队，都归属于计算产品线。这系一个同华为“小云”同级别嘅BU。

匿名采访者透露，MindSpore在内部都系系要承接业务部门需求嘅。

MindSpore再早之前嘅研发时间线唔得而知，因为“事关”华为最敏感嘅“部（xin）位（pian）”。

细细翻阅三位科学家嘅公开观点，

第一位，华为MindSpore首席架构师金雪锋博士。

第二位，一流科技创始人袁进辉博士。

第三位，谷歌公司Waymo自动驾驶汽车感知同规划任务机器学习平台资深研发工程师、阿帕奇基金识MXNet项目委员识委员、Horovod（系Uber开源嘅一个深度学习工具）技术委员识委员袁林博士。

佢哋共同认为：“市场需求没有好好地满足，技术没有收敛，创新仲有空间。”

国外框架出发嗰时，广阔天地，大有可为，国产框架正好相反。好摘嘅果实都已被摘走，只剩高高树顶上嘅，仲有那零散摔落喺地嘅。

国货当自强，同情分唔好都罢。

国产深度学习框架嘅建设者，藏好后退嘅发际线，喺时代嘅噪音入面，纵身一跃。

2020年，国产深度学习框架井喷。

3月20日，清华大学计图（Jittor）。

3月25日，旷视科技天元（MegEngine）。

3月28日，华为MindSpore。

7月31日，一流科技OneFlow。

四家国产，同期开源。五家国产，旌旗列阵。这一年最有可能被追认为国产深度学习框架嘅“元年”。

守旧嘅经验系，既然国外开源嘎啦，就抓紧学。既然人家成事实工业标准，就尽力参同。成日慢好几拍，Linux这轮就系咁样。

引用某游戏厂商嘅经典台词系：“别催嘎啦，喺抄嘎啦，喺抄嘎啦。”

可惜竞争从嚟唔系游戏。

深度学习框架嘅台词系：“唔可以照抄，唔可以舔狗，舔到最后，一无所有。”

2020年，国产框架喺技术上唔系单纯嘅跟随者角色嘎啦，都有好多创新点可圈可点。

飞桨作为国内最早嘅开源框架，模型库系最丰富嘅。以模型库嘅形式沉淀成深度学习框架生态嘅一部分，生态都起步早。

古人云：“唔谋全局者，不足以谋一域” 。有匿名采访者认为：“华为系国内投入框架研发最坚定嘅大公司。”

可以观察到，华为剑指全栈AI战略，投入非常大。硬件算子库、基础软件、平台、产业基金、联合项目、标准、论文专利、人才，几乎所有啲地方都发狠力。

华为内部技术高管（笔者被反复系要求匿名）讲畀笔者：“大厂发展深度学习框架一定唔系为咗卖钱，而为咗发展生态。华为发展深度学习框架，一方面系自主可控，一方面系坚定地发展AI全栈能力。Mindspore并没有拘泥于自家嘅芯片，唔可以剩只视为一款产品，而系战略级嘅平台，这系明确公开说嘅。”

翻睇所有啲宣传稿件，唔难总结出，华为有全场景，端边云协同，比如，华为自己有手机业务，方便对硬件做指令级优化。

但系，华为做嘅远唔止这些。

第一，喺拿MindSpore 为抓手，嚟解决深度学习之外嘅、以前喺超算领域关注嘅一啲计算任务（科学计算）。其他框架虽然都有呢个目标，但华为谂到嘎啦，都做到嘎啦。

第二，AI有个公开嘅槽点，即被黑盒问题所累。但係，牵扯到AI安全嘅问题，既基础，又前沿，搞得人少，困难多。对于基础软件嚟讲，又格外重系要。

华为金雪锋博士有一个表述：“按DARPA（美国国防部先进研究项目局）嘅说法，但系解释AI嘅目的，就系系要解决用户面对模型黑盒遇到嘅问题，从而实现：用户知道AI系统点解咁样做，都知道AI系统点解唔咁样做，用户知道AI系统点解做错嘎啦。

呢个问题被华为关注，无疑提高国产框架段位。你喺研究拳法，我喺研究拳法背后嘅哲学根基。

华为MindSpore开源后，好多质疑嘅声音消失嘎啦，酝酿半天嘅道德制高点没有闹出嚟，憋得怪难受。

不过，有啲批评，华为确实该虚心接受，唔系外人，都可以过去。

（三）点样竞争？

滔滔江水，浪奔浪涌，摩尔定律却日渐消失于地表。

需系要喺硬件层面对AI进行优化浮出水面，因为喺微观层面嘅编译器优化，需系要同硬件厂商合作。这系华为嘅独家优势。喺所有框架公司入面，唯独华为有芯片。

官宣用语：“用昇腾+MindSpore，构建华为数字底座”。

华为被特朗普轰炸几轮，印象十分深刻。

喺独家硬件嘅加持下，MindSpore嘅名场面系，有开发者感受到“快到飞起”嘅兴奋。

这都唔系唯一嘅路，因为深度学习编译器都登上舞台。巧唔巧，这又系一个底层技术。

所以说，深度学习框架门槛高唔可攀，算法、底层硬件、操作系统、分布式系统、编译器，一个都唔可以少。

TVM编译器喺2017 年开源，但系以够喺任何硬件后端上有效优化同运行计算，但系作为框架嘅后端。学术方面，进展都迅速，比如“点样利用TVM直接参同硬件设计过程嘅迭代，使得加速器设计喺一开始嘅时候就可以直接获得软件嘅支持同目标嘅具体反馈”。

TVM嘅背后系陈天奇团队，同其竞争嘅定系中国人民嘅老朋友，谷歌（MLIR）。

国产框架，万箭齐发之势。

创业公司代表队唯一嘅队员，一流科技袁进辉博士则放出豪言：“系要做出世界上速度最快嘅。”

AI科学家嘅豪言壮语，比起罗永浩嘅那句“收购唔可避免走向衰落嘅苹果公司，并复兴佢”，都没克制。

天下武功唯快唔破。

佢认为，第一，喺分布式深度学习入面，计算剩只系一个方面，多个GPU上任务嘅协同需系要频繁地将数据喺GPU之间传嚟传去。数据喺数据流图入面行走（flow），谂走得快，算得快，吞吐量得大，得将数据通信都设计成数据流图嘅一部分，唔可以等传输成瓶颈。

第二，边入面需系要数据通信，需系要乜嘢形式嘅数据嚟进行通信，都系要开发者去编程实现，这好麻烦，框架应该自动实现。

袁进辉博士嘅总结系：“OneFlow有两个创新点：一识自动安排数据通信。二将数据通信同计算嘅关系协调好，等整体效率更高。”

2020年，多节点同多设备嘅训练成为深度学习嘅主流，这一趋势符合袁进辉创业之初嘅判断，而这一思路可追溯到2014年佢喺微软亚研院嘅思考。

袁进辉团队嘅短板明显存在，AI研发投入“壕无人性”，直白一点：创业公司穷。不过，2021年春节前，高瓴创投独家领投一流科技A轮融资，总额5000万元人民币。

框架，A面系各有特色，B面系乜嘢呢？

答案系，大规模。

这世界上唯一够晒碾压国内一线城市房价增速嘅，只有AI模型嘅规模。虽然硬件同软件嘅进步已经将每年嘅训练成本降低37%；但系，AI模型越嚟越大，以每年10倍嘅速度增长。

人工智能模型好似宇宙飞船飞向太空最远处，正喺探索能力嘅边界，拓展人类嘅谂象力。

大模型，跑步前进，工业级实现，拔腿直追。

迈入大型模型训练时代，系要求深度学习框架够晒喺面临数百台、数千台计算机嘅庞大规模嗰时，有效地进行训练。

比如，对于单个设备或多个设备数据并行呢种简单场景嘅支持已经足够优秀，但喺模型更大或者神经网络拓扑更复杂嗰时，通用框架嘅易用性同效率都大打折扣，有呢种需求嘅工业级应用只好下血本研发定制方案。

大规模训练系家阵时各厂商竞争嘅一个焦点，谁输谁赢仍有变数。但可以肯定嘅系，只待“百团大战”嘅第一枪打响后，就系全方位嘅比拼（易用性，完备性，高效性）。

坏消息系，国产喺市场同生态上同美国巨头依然有好大嘅距离。

好消息系，这唔系一个完全被动嘅局面。

甚至，国产框架嘅竞争都喺细分，分化出局部战役。

框架分为训练同推理两部分，训练框架难度大，推理框架次之。

华为推理框架已经做到生产级别，交付到华为手机上。喺手机巨头厂商中，框架嘅玩法，各唔相同。

都知道，苹果机器学习框架CoreML嘅代码系高度商业秘密。

巨头嘅动作出其唔意地整齐划一，端侧深度学习推理框架，BAT已经全部出手。

百度Paddle Lite、阿入面巴巴mnn、腾讯ncnn、华为移动端推理框架Bolt（华为诺亚方舟实验室开源）、OPEN AI LAB嘅边缘AI推理框架Tengine ，甚至连小米都有，MACE。

单论技术难度，这些同类产品比深度学习框架低好多，但都各怀绝技，各有千秋，只系误放喺一齐比嚟比去，就唔系内味儿嘎啦。

深度学习框架嘅战场上，全行业最拔尖嘅团队悉数上场。

（四）开源都竞争

做基础软件，

一系要决心，

二系要耐心，

三系要开源，

因为系大投入、长周期、抢生态。

关于开源同生态，笔者最谂采访嘅系美国硅谷创投圈资深人士，思科云计算事业部研发老大徐皞。

几次联系，终于得到佢嘅回复。

佢讲畀笔者：“生态系统对操作系统而言，比操作系统本身更重系要更难发展。呢个道理好简单：操作系统可以雇几百个人写出嚟，生态需系要恳求几万、几十万、几百万嘅人去写应用才算数。对手机电脑而言，多数用户系为应用买单，而唔系为操作系统买单；对框架而言，多数用户系为可以唔可以快速解决商业问题而买单。”

开源系一个隐秘嘅角落，“大教堂同集市”嘅比喻口口相告，代代相传，系开发者眼中独一无二嘅圣地，挤满嚟自全世界贡献同分享嘅热情，胸前佩戴“开源项目主系要贡献者”嘅奖章，系江湖地位嘅象征。

曾几何嗰时，开源软件系对抗大公司嘅侠者。

而而家，大公司却对开源软件越嚟越青睐。巨头对开源嘅投入，其背后系生态，系为咗占领市场。开源软件嘅开发，唔再系开发者之间松散嘅合作。

开源软件公司有更多主导，开源软件嘅开发效率同质量都有所提升。

开源嘅“唔竞争”系另一种形式嘅竞争。眼下这几年，开源商业模式有变。徐皞认为：“开源软件真正兴盛，真正有突破，都就系五到十年嘅事，开源软件商业模式依然喺非常早期。”

开源软件嘅背后系竞争，系研发同工程嘅投入，唔投入，怎么占领。

Linux系有好多家嘅贡献，但系安卓代码1200万行，全部系谷歌工程师自己写嘅。

睇睇美国公司对开源市场嘅投入力度，中国公司唔可以落后，更应该主动投入，占据，甚至主导。

开源同闭源，隔山两相望，且睇那密密麻麻嘅布防，边个山头都有重兵。

开源软件世界入面，框架虽为一隅，却极尽奇观。最好嘅思谂，最好嘅代码都悉数拿出嚟嘎啦。这系分享，都系一种较量。

前美国国防部咨询顾问，史蒂夫·马奎斯嘅说法系：“开源项目，来源于最纯粹嘅竞争。如果一个开源项目喺商业世界获得成功，噉决唔识系出于侥幸，决唔识系因为其他竞争者恰好被规章制度所累、被知识产权法约束、被人傻钱多嘅金主拖垮。一个开源项目胜出嘎啦，背后只会有一个原因——佢真嘅比其他竞争者都系要好。”

有借有仲，再借唔难。“借用思路”系爽嘎啦，但又诱发更深层次嘅竞争。

上帝说，系要有光。

特斯拉说，系要有电。

开源说，系要有代码。

若问深度学习框架将带嚟乜嘢，得谂清楚深度学习嘅未嚟喺边。

听说过深度学习又被称为软件2.0吗？作为数据驱动范式嘅顶峰，从数据入面自动推导出程序，而唔系必须靠程序员绞尽脑汁手动书写程序，这系一个划时代嘅进步。

深度学习可能从一个小小岛屿，演进成一个大陆板块。

喺接下嚟嘅十年，深度学习软件有机会变成每个软件工程师医药箱入面嘅必备“药丸”（唔好乱谂，唔系蓝色嘅那种）。人类最重系要嘅计算机软件将由其创造，自动驾驶，药物发现……

开源软件嘅玩法自由奔放，但都有公地悲剧、PR铜臭。深度学习框架系一款理解成本好高嘅软件，群众基础薄（mei）弱（you）。于系，有人用“AI平台”一词，胡乱指代，张冠李戴，故意混淆，真令人作呕……大过节嘅，算算嘎啦。

有决心，就有私心，有疯子，就有骗子。

时间总可以畀出答案。

结语：

古人云，按经济学嘅规律办事。

大约两百多年前，英国经济学家杰文斯指出，技术成本降低，将提升技术嘅普及度，从而扩大市场规模。

起初，戴住大粗金链子，说错嘎啦，戴住领结嘅大英煤老板十分担心，掐指一算：第一次工业革命等蒸汽机效率提升，每台用煤量减少，总嘅用煤量识下降，生意系要下滑。

结果事实正相反，用煤量大幅增加，好开心呀，因为蒸汽机使用成本降低嘎啦，使得蒸汽机用得更广泛嘎啦。

框架嘅道理都一样，降低研发人力成本，降低计算资源成本，带动市场规模扩大。

两百年后嘅今日，人工智能深度学习算法嘅大火，创造算法软件包史无前例嘅机会，软件开发中嘅标准化就系将每个人都系要干嘅活统一齐嚟，成为工业化嘅环节。

深度学习框架牛就牛喺将共性提炼抽象出嚟，用最简约嘅代码实现，代码越简单越牛。

软件流水线提升成个行业嘅水平，彻底替代手工打造嘅落后局面。

图为：贾扬清喺阿入面巴巴公司嘅工位

搞深度学习框架嘅那群人，

佢哋，但系能系同学同事同行，亦狂亦侠亦友。

佢哋，必然系浩宇璀璨群星，风雷意气峥嵘。

贾扬清，化身修罗，重回故入面，现任阿入面巴巴技术副总裁。

陈天奇，学府道场，CMU大学教书，投入深度学习编译TVM。

李沐，蒲团打坐，驻守美国亚马逊，现任资深主任科学家。

徐伟，开山老祖，现任地平线AI首席科学家。

王益，绝顶神僧，谷歌、腾讯、蚂蚁金服美研主任科学家，2021年初去脸书公司。

袁进辉，苦炼金刚，网名老师木，清华博后，微软科学家，穷酸创业。

林敏，羽化成仙，跳出三界，研究基础理论去嘎啦。

无论系产品，定系生态，最终，市场识决定胜出者。

人工智能头顶高科技花环，被高高捧起，又被左右开弓扇耳光，灵魂三逼问：到底行唔得？啥时候突破？谁杀死那只独角兽？

突破难规划，创新难计划，独角兽唔拼命都唔得……此后，深度学习框架，对于国外开发者同样重系要。

需系要发问嘅系：点样先可以做出全球大流行嘅开源深度学习框架？网友质问嘅原话系：“你敢超过吗？”

（未完待续，这篇文章太长嘎啦，转发后，去你嘅收藏夹食灰吧。）

《亲爱嘅数据》出品人：谭婧

主编微信号：18611208992

搞深度学习框架嘅那帮人，唔系疯子，就系骗子

（一）上半场：美国科技大厂嘅豪门恩怨

（二）下半场：中国队嘅出征

（三）点样竞争？

（四）开源都竞争

最新内容