等AI认出「生狗」？Facebook构建能感知变化算子嘅人工智能

转载：本文嚟自微信公众号“新智元”（ID:AI_era），嚟源：Facebook AI，编辑：LQ，转载经授权发布。

一条狗，就算是之前从未见过嘅品种、颜色，我哋都可以一眼认出佢。

对周遭任何变化嘅感知是人类同生俱嚟嘅能力。

但是人工智能系统就不一样嘎啦，就算级别SOTA，能完成无数人类完成不‌嘅任务，但都有好多对人类嚟讲轻而易举嘅事，佢却搞不定，比如，等金毛换个角度：正面、侧面、前面、后面，人工智能可能会识别地好挣扎。

深度学习模型擅长解释像素同标签之间嘅统计模式，但却好难通过好多潜在嘅自然变化正确识别对象。

那是扫雪机在路上扫雪吗？仲是一辆校车侧翻‌？

上图是根据M.A. Alcorn等人嘅 “Strike(with)a pose: Neural networks are easily fooled by strange poses of familiar objects”绘制，显示‌一个深度神经网络将一辆公共汽车错误地分类为扫雪车。

人类可以瞬间知道，但是颜色、大小同透视等因素使情况复杂化，增加‌人工智能模型嘅预测难度。

Facebook AI一直在探索点样更好地捕捉自然变化，喺这方面，传统解决方案有好大局限性，即所谓嘅解纠缠（disentanglement）。我哋最近仲提出‌等变化移位算子（equivariant shift operator）嘅概念，这是一种替代解嘅概念证明，但系以帮助模型理解通过模拟最常见嘅变换，物体可能会发生点样嘅变化。

目前，Facebook AI在这方面嘅工作主要是理论性嘅，但系对于深度学习模型，特别是计算机视觉潜力巨大: 增加‌可解释性同准确性，就算在小数据集上训练都有更好嘅性能，并提高‌泛化能力。Facebook AI希望呢啲贡献能够使计算机视觉向前推进一步，更好地理解视觉世界嘅复杂性。

现行方法嘅局限

目前嘅解纠缠方法试图通过将模型中嘅每个因子编码到模型内部表示嘅一个单独嘅子空间度，嚟学习模型中对象嘅基本变换。

例如，解纠缠可能将狗图像嘅数据集编码为姿态、颜色同品种子空间。

呢种方法在识别刚性数据集嘅变化因素方面好有优势，比如一个单一嘅 MNIST 数字或者一个单一嘅对象，比如一将椅子，但是我哋已经发现，喺多个分类度，解纠缠嘅表现好差。

想象一下多个旋转嘅形状，比如三角形同正方形。解纠缠模型试图将物体嘅形状同方向这两个变化因素分离成两个变化因素。

下图说明‌传统嘅解纠缠是无办法在多个形状嘅数据集中孤立旋转嘅。我哋期望高亮显示嘅形状会旋转，但是由于解纠缠失败，形状仍然是固定嘅。

解纠缠仲带嚟‌拓扑缺陷，这是一系列众多变换中嘅另一个问题。拓扑缺陷违背连续性——深度学习模型嘅本质属性。如果没有连续性，深度学习模型可能好难有效地学习数据中嘅模式。

想象一下正三角形嘅旋转。旋转120度嘅正三角形同原嚟嘅三角形无办法区分，导致在方向空间中有相同嘅表示。但係，通过在三角形嘅一个角上加一个无穷小嘅点，表示变得可辨别，违反‌连续性。附近嘅图像映射到相距较远嘅图像。Facebook AI嘅研究仲表明，拓扑缺陷出而家非对称形状同好多第啲常见嘅变换中。

利用等变化算子揭示变化因子

同其将每个转换限制为一个表示嘅一个组件，如果转换可以改变成个表示呢？呢种方法嘅目标是发现能够操纵图像及其表示嘅操作符ーー每个变化因子嘅一个操作符。呢啲被称为等变量。

有一个数学分支「群论」可以教我哋应用等变化算子嘅好多知识。佢表明，一个直观嘅方式嚟理解变化因素是将佢哋模拟为一组转换。例如，一个三角形嘅旋转有一个组嘅结构: 90度旋转同30度旋转结合起嚟产生120度旋转。

Facebook AI利用呢啲想法嚟识别传统解纠缠嘅缺点，并确定点样训练等变化算子嚟解纠缠。我哋提出‌一个等变化算子，称为移位算子。这是一个矩阵，其块体模仿‌常见变换嘅组结构–旋转、平移同重缩放。然后在原始图像同佢哋嘅转换上训练一个人工智能模型。

咁样就会发现，就算在包含多个类嘅数据集度，移位算子都可以成功地学习变换–这正是传统解纠缠经常失败嘅条件。

未嚟

基于群论嘅等变模型极大地扩展认识纠缠嘅研究范围，现有嘅模型依赖于强有力嘅监督，例如先验地理解利益嘅转化，并在模型中加以实施。

但是，点样使用最少量嘅监督发现一个数据集嘅对称性？以前在呢个领域嘅研究主要应用于合成数据，所以当佢哋面对不寻常嘅观察时，如一辆公共汽车侧面或一只狗嘅嘴入面有一个超大嘅玩具时，基本对称性嘅知识可以使模型更加可靠。

人类通过直观地将不明物体同以前见过嘅物体进行比较嚟识别不明物体。模型可以被训练成同图像子部分嘅变换相等，而且关键嘅是，当遇到未知对象时，模型可以重新组合子部分。

最后，用基于群论嘅模型处理真实数据集是具有挑战性嘅，因为群体结构没有得到完全尊重。例如，当在非均匀背景中旋转一个物体时，有好多方法可以推断出旋转后出现嘅像素值。将呢个想法扩展到更真实嘅设置同数据集，例如没有人工增强嘅图像，但系能会被证明是一个有价值嘅方法。

参考资料：

链接

等AI认出「生狗」？Facebook构建能感知变化算子嘅人工智能

现行方法嘅局限

利用等变化算子揭示变化因子

未嚟

最新视频

捐助