转载:本文嚟自微信公众号“机器之心”(ID:almosthuman2014),编辑:小洲、蛋酱,转载经授权发布。
ImageNet 数据集中嘅人脸为何一夜变糊?研究团队表示,咁样做既有利于保护个人隐私,同时都唔会明显影响到应有嘅模型训练效果。
作为 AI 领域嘅知名数据集,ImageNet 曾极大地推动计算机视觉技术突破。自 ImageNet 论文 2009 年发布以嚟,佢在 Google Scholar 上嘅引用量高达 26115 次,该论文都获得 CVPR 2019 嘅经典论文奖。
不过随住计算机视觉技术成熟,有越嚟越多嘅应用,ImageNet 数据集中嘅隐私同偏见问题都引发极大嘅争议,例如部分标签包括种族歧视、性别歧视、色情内容等。
而针对数据集中嘅人脸隐私问题,呢个曾经红极一时嘅数据集最近友不得不作出新嘅调整。
呢排,ImageNet 管理团队推出新论文《A Study of Face Obfuscation in ImageNet》,对 ImageNet 中嘅人脸做模糊化处理。
-
论文链接:https://arxiv.org/pdf/2103.06191.pdf
-
项目地址:https://github.com/princetonvisualai/imagenet-face-obfuscation
目前 ImageNet 数据集包含大约 150 万张图片同 1000 个标签,主要用于评估机器学习算法嘅性能,或训练针对特定计算机任务嘅算法。被模糊掉嘅图片涉及到数据集中嘅 243198 张。
具体噉讲,研究者对人脸模糊图像进行多个深度神经网络测试,总体识别率略有下降 (≤0.68%)。然后研究者将学习迁移到 4 个下游任务(目标识别、场景识别、人脸属性分类同目标检测),结果表明在人脸模糊图像上学习嘅特征是同样可以迁移嘅。
在《连线》相关报道度,ImageNet 嘅管理者之一、普林斯顿大学助理教授 Olga Russakovsky 表示:「我哋好关心隐私问题。」
「人脸出而家呢啲数据中是偶然嘅」,换而言之,喺一张展示啤酒瓶嘅图片度,就算喝啤酒嘅人脸被遮挡,对啤酒瓶本身又有乜嘢影响呢?
图 1:ImageNet (Russakovsky et al. ,2015) 中嘅大多数类别都唔系人类。呢啲图片包含好多同人相关嘅目标,构成潜在嘅隐私威胁。比如理发椅、哈士奇、啤酒瓶、排球同军装。
论文都声话,模糊掉脸部并唔会影响在 ImageNet 上训练嘅目标识别算法嘅性能。Russakovsky 讲:「我哋希望呢种概念验证为该领域嘅隐私视觉数据收集探索出一条实践之路。」
同样哋,团队在这篇论文中都介绍模糊人脸所用嘅亚马逊 AI 服务 「 Rekognition」,当然,过程中都采取人为确认、调整嘅步骤。
模糊化能否解决问题?
这并唔系 ImageNet 嘅第一次调整。2019 年 12 月,ImageNet 团队就删除咗带有偏见同贬义嘅标签。
2020 年 7 月,UnifyID 机器学习科学家 Vinay Prabhu 同都柏林大学博士生 Abeba Birhane 发表论文《LARGE DATASETS: A PYRRHIC WIN FOR COMPUTER VISION?》。这项研究揭露现有嘅大规模图像数据集所存在嘅问题:佢哋可以识别出数据集中嘅某个人,包括其中嘅计算机科学研究人员,甚至发现数据集中包含色情图片。
Vinay Prabhu 表示,人脸模糊化是好嘅,但对 ImageNet 团队没有承认佢同 Birhane 嘅研究贡献,这等佢感到失望。喺李飞飞等人嘅论文发布之后,佢同 Birhane 撰写一篇长文发表自己嘅观点。
对此,Olga Russakovsky 表示 Prabhu 二人嘅研究将出而家论文嘅更新版本中。
不过,人脸模糊化能真正解决问题吗?系咪会产生预料不到嘅后果?例如,算法可能会在搜索特定对象时学会寻找模糊嘅面孔。此外,有面部表情嘅图片模糊化后,其训练嘅 AI 模型性能系咪都会变得奇怪?
呢啲微妙嘅变化,都许会带嚟难以想象嘅后果。
参考链接:https://www.wired.com/story/researchers-blur-faces-launched-thousand-algorithms/
tracle.cn 足跡 粵字翻譯
2021-03-17 14:07:24
请登录之后再进行评论