微软新研究：无人机获推理能力看图就能做出决策

一般来说，人类通过感知来作出相应的决策，比如因为看到障碍物而选择避让。尽管这种“从感知到动作”的逻辑已经应用到了传感器和摄像头领域，并成为了当前一待机器人自主系统的核心。但是，目前机器的自治程度远远达不到人类根据视觉数据而作出决策的水平，尤其是在处理第一人称视角（FPV）航空导航等开放世界感知控制任务时。

不过，微软近日分享的新的机器学习系统这一领域带来了新的希望：帮助无人机通过图像推理出正确的决策。

微软从第一人称视角（FPV）无人机竞赛中获得启发，竞赛中的操作员可以通过单眼摄像头来规划和控制无人机的运行路线，从而大大降低发生危险的可能性。因此，微软认为，这一模式可以应用到新的系统当中，从而将视觉信息直接映射成实施正确决策的动作。

具体来说，这个新系统明确地将感知组件（理解“看到的”内容）与控制策略（决定“做什么”）分开，这样便于研究人员调试深层神经模型。模拟器方面，由于模型必须能够分辨出模拟和真实环境之间细微的差异性，微软使用了一种名为“AirSim”的高保真模拟器对系统进行训练，然后不经修改，直接将系统部署到真实场景里的无人机上。

上图为微软在测试中使用的无人机

他们还使用了一种称为“CM-VAE”的自动编码器框架来紧密连接模拟与现实之间的差异，从而避免对合成数据进行过度拟合。通过 CM-VAE 框架，感知模块输入的图像从高维序列压缩成低维的表示形式，比如从 2000 多个变量降至 10 个变量，压缩后的像素大小为 128×72，只要能够描述其最基本的状态就行。尽管系统仅使用了 10 个变量对图像进行编码，但解码后的图像为无人机提供了“所见场景”的丰富描述，包括物体的尺寸、位置，以及不同的背景信息。而且，这种维度压缩技术是平滑且连续的。

为了更好地展示这一系统的功能，微软使用带有前置摄像头的小型敏捷四旋翼无人机进行了测试，试图让无人机根据来自 RGB 摄像机的图像来进行导航。

研究人员分别在由 8 个障碍框组成的长达 45 米的 S 型轨道上，以及长达 40 米的 O 型轨道上对装载系统的无人机进行了测试。实验证明，使用 CM-VAE 自动编码框架的表现比直接编码的表现要好很多。即便是在具有强烈视觉干扰的情况下，这个系统也顺利地完成了任务。