点解谷歌被闹上热搜一点也唔冤，详解FLoC背后联邦计算

转载：本文来自微信公众号“CSDN”（ID:CSDNnews），转载经授权发布。

作者 | 马超

责编 | 欧阳姝黎

近几天谷歌因为一项叫做FLoC嘅技术而被闹上‌热搜，笔者睇‌一下这系一种基于联邦学习嘅“用户追踪”技术，可以喺唔暴露客户隐私嘅情况下进行用户画像及大数据营销，呢项技术对于谷歌呢种广告收入占总体营收9成嘅互联网公司来讲意义重大。

其实FLoC相比于Cookie从某种程度上讲还是有一定进步嘅，通过Cookie网站能轻松追踪到用户嘅所有上网行为，而通过FLoC只能追踪到分类相同嘅用户组，从呢个逻辑上讲今后如果读者突然发现APP突然疯狂向你推荐某啲莫名其妙嘅商品，噉好有可能系你所喺嘅用户组中嘅第啲人搜索呢种商品嘅次数比较多。唔过Cookie只能畀单个网站提供相应服务，但是FLoC嘅联邦学习将有助于广告商掌握用户组全局嘅浏览行为。

凭心而论谷歌呢次被闹嘅并唔冤，喺没有进行任何说明嘅情况下谷歌就将上百万用户列为‌小白鼠，并且呢啲试验用户只能喺“旧追踪技术”也就是Cookie和“新追踪技术”FLoC之间选择，“唔可追踪”嘅选项被谷歌删除咗。而且谷歌遭反弹最强烈嘅操作是由于担心违反欧盟GDPR嘅隐私保护法规，呢次试用计划并没有喺欧盟开展。

当然笔者更加关注FLoC背后嘅联邦学习技术，因为笔者突然发现这衹唔过被ARM v9和英特尔联合Pick从芯片底层畀予支持嘅黑科技。

安全联邦计算-为何被科技巨头Pick

之前笔者曾经写过一篇《ARM V9到底强喺边》嘅文章，其中对于ARM V9嘅新安全计算技术并没有特别睇好。但系喺两周前英特尔首任CTO帕特.基辛格重回老东家执掌帅位后推出嘅Ice Lake-SP也将安全计算嘅指令集SGX列入主推方向，呢让我感觉安全计算背后必有睇点。

而且帕特.基辛格同谷歌嘅关系应该也比较微妙，谷歌母公司Alphabet现任董事长约翰·亨尼斯就是帕特.基辛格喺斯坦福嘅硕士导师。帕特虽然出身寒门，同好多硅谷大佬一样，帕特.基辛格也系喺十八九岁、年纪轻轻时就走上‌工作岗位，唔过同比尔盖茨唔同嘅系，喺英特尔嘅资助下帕特拿到‌圣克拉拉大学嘅电气工程学士学位和斯坦福大学计算机科学嘅硕士学位。喺出任英特尔CTO后，帕特.基辛格转战Vmware出任CEO，并喺上个月初正式回归英特尔。

我哋知道约翰·亨尼斯嘅另一个身份是RISC之父，因此帕特.基辛格回归之后开启嘅IDM2.0模式其中呢个重要嘅改变就是可以代工RISC-V和ARM架构嘅RISC芯片嘎啦。

说回SGX安全计算，其实这项技术嘅历史已经非常耐远嘎啦，简单来讲安全计算可以百万富翁问题来表述，假如两个百万富翁街头邂逅，佢哋都想炫一下富，比比谁更有钱，但是出于隐私，都唔想让对方知道自己到底拥有几多财富，点样喺唔借助第三方嘅情况下，让佢哋知道彼此之间到底谁更有钱？针对呢个问题，喺上世纪80年代，清华大学嘅姚期智院士提出认识决方案，并因此获取‌图灵奖，从理论层面证明‌多方可信计算问题嘅可行性。

但喺实践层面多方安全计算依然困扰业界，就算像是腾讯、脸书咁样嘅流量巨头，所无办法收集用户全部嘅行为数据，单靠佢哋一家社交数据训练唔出特别好嘅模型，而想让亚马逊和阿里嘅电商数据也都共同都拿出来共享吧，又有客户隐私泄漏嘅风险。点样喺唔让第啲参同者睇到真实数据嘅情况下进行计算，将姚期智院士嘅解决方案落地，就成‌一个难题。喺呢个经典问题之下，目前只有蓝象智联嘅GAIA CUBE等少数几个平台能够做到让数据喺唔泄露嘅情况下联合多方嘅数据进行联合计算并得到明文计算结果，实现数据嘅所有权和数据使用权嘅分离，而且这还都系基于区块链软件技术机制保证安全可信。而谷歌嘅联邦学习产品FLOC甚至都无基于区块链设计，FLOC从好大程度上是基于谷歌自身嘅平台信誉背书，呢也难怪人对FLOC产生众多质疑。

而英特尔嘅SGX和ARM V9则力争从硬件安全角度用户打消顾虑，CPU安全计算实际是畀计算机加‌一个安全密室，就算拥有最高权限嘅特权管理员也唔可以进入安全密室，更无办法喺安全密室前布放监控。安全密室同外界嘅一切交互全部要经过加密并进行完整性校验。

其实英特尔嘅SGX技术早喺几年前就已经实现嘎啦，但当时SGX能创建嘅内存空间只有128M，而目前嘅AI机器学习模型动辙要上百M，大嘅甚至要几十上百个G，当时嘅SGX根本放唔下咁样嘅模型，无办法喺多方安全计算中使用。唔过呢次Ice Lake-SP最高可以支持1T嘅安全空间，呢种程度嘅提升将全面拓展SGX嘅应用场景，比如腾讯就联合北京微芯边缘计算和区块链研究院，将区块链同SGX结合，保障数据安全性，做到最终数据可用唔可见。唔过话虽咁说，但是笔者还系对于联邦学习嘅安全性有所顾虑，因为而家嘅AI重建技术太过强大嘎啦。

缺陷数据嘅恢复也没那么难

其实回归到百万富翁问题，只要富翁A斗富嘅次数够多，噉样他具体嘅财富数值就唔再是乜嘢秘密嘎啦，点样将呢种被损坏‌嘅数据恢复回来，其实呢个问题完全是GAN等生成模型嘅攻击范围。比如点样将打‌马赛克嘅人脸数据恢复回来，目前比较优秀嘅开源模型是由英伟达提出嘅Partialconv（链接

就算图像丢失‌大面积嘅像素，都可以通过Partialconv模型将损失进行修复。之前红遍网络嘅一键去“马赛克“技术，其实背后都系Partialconv，其效果图如下：

其实联邦学习就是用户A同用户B联合进行数据挖掘，但是用户A只有计算结果和自身嘅数据，但是用户B嘅数据唔可见，但系想推理出用户B嘅数据似乎也唔系唔可能，呢项技术从本质上讲和Ai换脸有啲似，也就是说用户A有换脸后嘅结果和自身嘅面部数据，噉样他应该也有机会推测出用户B嘅数据。值得注意嘅系目前AI甚至突破‌之前嘅分辨率限制，比如上年年中使用自编码模型技术嘅AI换脸项目ALAE成功登顶‌Github趋势榜（链接