AI太傻分不清东西？首个3D点云+GAN新方法，让机器人“眼神”更犀利！

2021

01/27

学术头条

A-

A+

图像不逼真怎么办？

随着 AI、机器人技术的不断发展，人们的生活得到了“AI 机器人们”的各种帮助：大到太空机器人辅助宇航任务，小到家用扫地机器人解放我们的双手，可以说，机器人在人类生活中充当的角色越来越多样。

但你知道吗？目前用于室内任务、尤其是需要与环境进行频繁交互的机器人，其视觉灵敏度仍需进一步提高——许多机器人在面对相似物体时，并不能辨别出其中的细微区别。

近日，来自德克萨斯大学阿灵顿分校（University of Texas at Arlington，UTA）的一个研究团队，提出了一种名为 PCGAN 的方法。相关研究论文以“A Progressive Conditional Generative Adversarial Network for Generating Dense and Colored 3D Point Clouds”为题，发表在预印本网站 arXiv 上。

研究人员表示， 这是第一个以无监督方式生成 3D 点云（3D point cloud）的条件生成对抗网络（GAN），该网络能够产生具有多分辨率和精细细节的 3D 彩色点云，以生成利于辨别的物体图像，这将极有利于机器人视觉灵敏度的提升。话不多说，先上图。

图 | real 列为真实物体的 3D 点云图像，后列为 PCGAN 产生的的结果（来源：该论文）

图像不逼真怎么办

想象一下，家里的扫地机器人是如何工作的？一般来说，这类需要与环境交互的机器人首先需要在已构建的环境中完成导航任务，这就要求机器人必须能够感知环境情况并实时做出决策，决定当前如何与其周围环境进行交互。

而要想让机器人具有这种自我决策能力，科学家们则需要使用机器学习和深度学习等方法来训练 Ta 们：通过将收集到的大量图像数据集用作训练数据，来训练机器人应对各种不同物体或环境时应该做出的正确反应。

要实现这一点，一方面一些人会使用手动方法来收集图像数据，比如通过使用昂贵的 360 度全景摄像头来捕获房屋环境，或者先拍摄局部图片再使用各类软件将单个图像拼接成房屋全景图像。但很明显，这种手动捕获方法效率太低，无法满足需要大量数据的训练要求。

另一方面，尽管手握数百万房的间照片和视频，但这些数据都不是从像扫地机器人所处的有利位置进行拍摄的。于是，尝试使用以人为中心的视角的图像来训练机器人也不可取。

于是，此次的研究小组转向使用一种被称为生成对抗网络的深度学习方式来创造足够逼真的图像，用来训练机器人以提高其辨别环境的能力。

作为生成模型的一种，GAN 的主要结构包括两个神经网络：生成器（Generator）和判别器（Discriminator）。生成器不断生成假图像，判别器则判断这些图像的真假。两个神经网络就这样相互竞争，最终形成非常强的制造样本的能力。一旦经过培训，这样的网络将能够创建无数可能的室内或室外环境，其中放置着多种多样的桌椅或车辆等物体。这些物件之间的差别将变得很微小，但对于人和机器人来说，其图像仍带有可识别的尺寸和特征。

PCGAN：更清晰的 3D 点云图像

整个研究小组由 UTA 的计算机科学与工程学系助理教授 William Beksi和他的六名博士学生组成。参与这项研究的博士生 Mohammad Samiul Arshad 表示：“手动设计这些对象将耗费大量资源和人力，而如果进行适当的培训，生成网络就可以在几秒钟之内完成同样的任务。”

此次研究中的图像数据则通过 3D 点云呈现，这是一种透过 3D 扫描器所取得的物体图像形式，它以点的形式记录对象，每一个点包含有三维座标，强度信息（可以反映目标物体的材质、粗糙度、入射角方向等信息），还可能含有色彩信息（RGB）。

对此，Beksi 解释道：“我们可以将它们移动到新位置，甚至使用不同的灯光、颜色和纹理，将它们渲染为可在数据集中使用的训练图像。这种方法可能会提供无限的数据来训练机器人。”

图 | PCGAN 合成的 3D 点云图像，飞机、桌椅等（来源：该论文）

在实验中，研究人员以 ShapeNetCore 作为数据集，ShapeNetCore 是各种对象类的 CAD 模型的集合。他们选择了椅子、桌子、沙发、飞机和摩托车图像进行实验，以满足物体形状的多样性；并将每个类别的数量确定为 5 个，以减少训练时间。此外，还消除了所有没有材料和颜色信息的 CAD 模型。

他解释说：“我们的模型首先学习低分辨率对象的基本结构，然后逐步建立高级细节。例如对象的各个部分及其颜色之间的关系——椅子/桌子的腿是相同的颜色而座椅/车顶的颜色则截然不同。我们建立层次结构以进行完整的合成场景生成，这对于机器人技术将非常有用。”

他们为每个类别生成了 5,000 个随机样本，并使用多种不同的方法进行了评估。他们使用该领域的各种常用指标评估了点云的几何形状和颜色。结果表明，PCGAN 能够为不同种类的对象类别合成高质量的点云。

One small step

尽管 PCGAN 的确优于一些传统的样本训练方法，但正如 Beksi 所说：“此次研究只是朝最终目标迈出的一小步，我们的最终目标是生成足够逼真的室内全景图，以提高机器人的感知能力。”

此外，Beksi 还正在研究另一个问题——Sim2real。Sim2real 着眼于如何通过捕捉场景的物理特性（摩擦，碰撞，重力）以及使用射线或光子追踪来量化细微差异，并使仿真图像更加逼真。

他说：“如果是由于增加分辨率而包含更多的点和细节，那么代价就是计算成本的增加。” 除计算需求外，Beksi 还需要大量存储来进行研究。研究团队每秒产生数百兆的数据，每个点云大约有 100 万个点，因此，这些训练数据集非常庞大，需要大量的存储空间。

接下来，Beksi 团队希望将软件部署在机器人上，并查看它与模拟真实的领域之间还存在何种差距。当然，尽管要拥有真正强大的、可以长时间自主运行的机器人还有很长一段路要走，但研究人员的工作必将有益于多个领域，比如医疗保健、制造业和农业等。

编审：寇建超
排版：邹静雯

参考资料：
https://arxiv.org/abs/2010.05391
https://www.tacc.utexas.edu/-/how-to-train-a-robot-using-ai-and-supercomputers-