三维点云分割综述-南阳师范学院|土木建筑工程学院|虚拟仿真教学平台

摘要

三维点云的语义分割3D Point Cloud Semantic Segmentation (PCSS)在计算机视觉以及机器人领域广泛的应用，随着深度学习技术的发展在点云的语义分割领域提供了新的可能性，并受到越来越多的关注，本文将着重的介绍这一主题的相关研究，首先从遥感领域和计算机视觉的角度概述三维点云的分割，并且结合已经发表的PCSS相关的文章作为研究基础，进行总结和比较，并且对传统的以及最新的点云分割技术进行回顾和比较，最后讨论了PCSS研究中重要的问题和有待解决的问题。

分割、分类和语义分割概念区分

点云语义分割是具有很长的研究历史，这里将点云分割，分类，以及语义分割做一个简短的概念区别，点云语义分割在计算机视觉领域中是广泛的使用，尤其是在深度学习的应用中。在遥感领域PCSS通常被称之为“点云分类”，在某些情况下，也可以理解为“点云标记”，在本文中是指点云的每个点与语义的标签关联起来的任务称为PCSS。

在基于监督学习的方法中广泛的使用在语义分割领域之前，对2.5D/3D的点云数据的非监督分割是指在不考虑语义信息的情况下，对具有相似的几何或者光谱特征的点云进行分类，所以在PCSS中，PCS（点云分割）可以作为一个预分割的步骤，并且影响着最终的语义结果。所以本文也包含了关于PCS方法的讨论。这部分内容将再在接下来的文章中发布。

我们知道单个的物体的结构不能直接通过一帧的原始点云获取，比如城市规划和建筑信息建模（BIM）需要参考建筑物或者人造物，森林的遥感监测需要基于树木的几何结构信息，机器人的应用如同时构建地图与定位（SLAM）需要室内环境来绘制地图，在自动驾驶，目标检测，分割与分类是构建高精地图所必须的，所以点云的分割以及语义分割是3D视觉领域基本且关键的任务。

点云的获取

在计算机视觉和遥感领域，点云可以通过四种主要的技术获得，

（1）根据图像衍生而得，比如通过双目相机，

（2）基于光探测距离和测距系统比如lidar,

（3）基于RGBD相机获取点云

（4）Synthetic Aperture Radar (SAR)系统获取，基于这些不同的原理系统获取的点云数据，其数据的特征和应用的范围也是多种多样。下面将要介绍这些技术。

图像衍生点云

概括起来就是通过双目采集的图像，根据摄影测量学或者计算机视觉理论原理，自动或者半自动的计算出三维的点云信息，根据不同的平台，立体和多视角的图像衍生系统可以分为机载，卫星，以及无人机等。传统的摄影测量计算中采用半自动人机交互方式生成三维点，具有严格的几何约束和较高的测量精度。由于许多人工操作，生成这种类型的点数据非常耗时。因此，用这种方法生成大面积密集点是不可行的。在测量和遥感行业中，这些早期形成的“点云”被用于绘制和生成数字地表模型（DSM）和数字高程模型（DEM）。由于图像分辨率的限制和多视点图像处理能力的限制，传统的摄影测量只能从航空/卫星平台获取接近最低点的视图，建筑立面很少，只能生成2.5D的点云，而不是全三维点云，摄影测量原理也可以应用于近景摄影测量，以便从某些物体或小区域场景中获取点云，但在点云生成过程中也需要手动编辑。

稠密匹配法、多视角立体视觉（MVS）和运动恢复结构（SfM）改变了图像衍生的点云，开启了多视角立体视觉的时代。SfM可以自动估计相机的位置和方向，使其能够同时处理多视图图像，而稠密匹配法和MVS算法提供了生成大量点云的能力。近年来，基于SfM和MVS的摄影技术可以很容易地获得城市尺度的全三维密集点云。然而，SfM和MVS的点云质量不如传统摄影测量或LiDAR技术生成的点云质量好，对于大区域尤其不可靠。

在空间分辨率方面，卫星摄影测量的空间分辨率较低。然而，卫星相机能够在短时间内以相对较低的成本绘制大区域的地图。此外，由于新的稠密匹配技术及其空间分辨率的提高，卫星图像正成为图像衍生点云的重要数据源。

雷达生成点云

激光雷达（LiDAR）是一种测量和遥感技术。顾名思义，激光雷达利用激光测量传感器和被测物体之间的距离。大多数激光雷达系统都是基于脉冲的。基于脉冲的测量的基本原理是发射激光脉冲，然后测量该激光到达目标物体所需的时间。根据传感器和平台的不同，从每平方米不到10个点到每平方米数千个点，点云密度或分辨率差异很大。根据平台的不同，将激光雷达系统分为机载激光雷达扫描（ALS）、地面激光雷达扫描（TLS）、移动式激光雷达扫描（MLS）和无人激光雷达扫描（ULS）系统。

机载激光雷达扫描ALS在机载平台上运行。早期的ALS-LiDAR数据是2.5D点云，与传统的摄影测量点云相似。由于机载平台到地面的距离很大，所以ALS点的密度通常较低。与传统的摄影测量相比，ALS点云的获取成本更高，而且通常不包含光谱信息。Vaihingen点云语义标注数据集是典型的ALS基准数据集。多光谱机载激光雷达是ALS系统的一种特殊形式，它利用不同的波长获取数据。多光谱激光雷达在提取水、植被和阴影方面表现良好，但数据不易获得。

TLS，也称为静态激光雷达扫描，使用安装在三脚架上的固定传感器进行扫描。由于它用于中、近距离环境，点云密度非常高。它的优势是能够提供真实、高质量的三维模型。到目前为止，TLS通常用于小型城市或森林的建模，以及遗产或艺术品文档。

MLS在地面上的移动车辆上运行，最常见的平台是汽车。目前，自主驾驶的研究与开发是一个热门话题，高精地图是必不可少的。因此，高精地图的生成是MLS最重要的应用。多个主流点云基准数据集属于MLS。

ULS系统通常部署在无人机或其他无人飞行器上。由于它们相对便宜，而且非常灵活，这种最近加入到LiDAR家族中的产品目前正变得越来越受欢迎。与平台在物体上方工作的ALS相比，ULS可以提供较短距离的激光雷达测量应用，以更高的精度收集更密集的点云。由于其平台体积小、重量轻，ULS具有很高的操作灵活性。因此，除了传统的激光雷达任务（例如，获取DSM），ULS在农林测量、灾害监测和采矿测量方面具有优势。

在激光雷达扫描中，由于系统始终随平台运动，需要将点云的位置与全球导航卫星系统（GNSS）和惯性测量单元（IMU）数据相结合，以保证高质量的点云匹配。迄今为止，激光雷达一直是点云研究中最重要的数据源，并被用来提供地面真实情况来评估其他点云的质量。

RGB-D 点云

RGB-D相机是一种可以同时获取RGB和深度信息的传感器。有三种基于不同原理的RGB-D传感器：

（a）结构光；

（b）立体；

（c）飞行时间。

与LiDAR类似，RGB-D相机可以测量相机到物体之间的距离，但是像素级的。然而，RGB-D传感器比激光雷达系统便宜得多。微软的Kinect是最知名和使用最多的RGB-D传感器。在RGB-D相机中，不同传感器之间或传感器之间的相对方位元素被标定并已知，因此可以很容易地获得共配准的同步RGB图像和深度图。显然，点云并不是RGB-D扫描的直接产物。但是由于摄像机中心点的位置是已知的，因此可以很容易地获得深度图中每个像素的三维空间位置，然后直接用于生成点云。RGB-D相机有三个主要应用：目标跟踪、人体姿势或特征识别以及基于SLAM的环境重建。由于主流的RGB-D传感器距离较近，甚至比TLS近得多，因此通常用于室内环境。几种主流的室内点云分割基准是RGB-D数据。

SAR点云

干涉合成孔径雷达（InSAR）是一种对遥感至关重要的雷达技术，它根据多个SAR图像对的比较生成地表变形或数字高程图。（这里不做过多介绍）

点云特性

从传感器发展和各种应用的角度出发，我们将点云分类为：

（a）稀疏（<20pts/m^2）

早期由于受匹配技术和计算能力的限制，摄影测量点云稀疏且体积小。当时，激光扫描系统的类型有限，并没有得到广泛的应用。ALS激光点云数据，也是稀疏的。由于受点云密度的限制，该阶段的点云无法覆盖目标的表面。因此，对精确的PCS或PPCS没有具体的需求。研究者主要集中在三维制图（DEM生成）和简单的目标提取上

（b）密集（数百pts/m2）

由于稠密匹配等计算机视觉算法，以及各种激光雷达系统和RGB-D传感器等高质量点云获取传感器的发展，开启了稠密点云的大数据时代。稠密的大规模点云为三维应用创造了更多的可能性，但同时也对实用算法有了更强烈的需求。因此PCS和PPCS是最新提出且必要的算法。计算机视觉和遥感都需要PCS和PCSS解决方案来开发类级别的交互式应用程序。

（c）多源。

从一般计算机视觉的角度来看，对点云及其相关算法的研究还停留在（b）阶段。然而，由于有利于星载平台和多传感器的发展，遥感研究人员对点云有了新的认识。新一代点云，如卫星摄影测量点云和TomoSAR点云，刺激了相关算法的需求。多源数据融合已成为遥感领域的一个发展趋势，但现有的计算机视觉算法对这类遥感数据集还不够。为了充分利用多源点云数据，需要进行更多的研究。

如前所述，不同的点云具有不同的特性和应用环境。表一概述了各种点云的基本信息，包括点密度、优缺点和应用。

点云应用

从表二可以总结出几个问题：

（a）激光雷达点云是个人计算机中最常用的数据，已广泛应用于建筑物（城市环境）和树木（森林）。建筑物也是传统计算机中最受欢迎的研究对象，由于建筑物通常是由规则的平面构成的，因此平面分割是建筑物分割的一个基本课题。

（b）图像衍生的点云经常用于真实场景。然而，主要由于现有的标注的局限性，基于图像数据的PCS和PCSS研究并不多见。目前，只有一个基于图像衍生点的公共有影响力的数据集，其范围仅为单个建筑物周围的很小的区域。因此，需要在这方面作出更多努力。

（c） RGB-D传感器受其近距离的限制，通常应用于室内环境。在PCS研究中，平面分割是RGB-D数据的主要任务。在PCSS研究中，由于RGB-D传感器有多个基准数据集，许多基于深度学习的方法都在这些数据集上进行了测试。

（d）对于InSAR点云，虽然没有太多的PCS或PCSS研究，但它们在城市监测，特别是建筑物结构分割方面显示出了潜力。


学科创新		学科创新当前位置: 首页 > 学科创新 > 正文
学科创新
		三维点云分割综述摘要三维点云的语义分割3D Point Cloud Semantic Segmentation (PCSS)在计算机视觉以及机器人领域广泛的应用，随着深度学习技术的发展在点云的语义分割领域提供了新的可能性，并受到越来越多的关注，本文将着重的介绍这一主题的相关研究，首先从遥感领域和计算机视觉的角度概述三维点云的分割，并且结合已经发表的PCSS相关的文章作为研究基础，进行总结和比较，并且对传统的以及最新的点云分割技术进行回顾和比较，最后讨论了PCSS研究中重要的问题和有待解决的问题。分割、分类和语义分割概念区分点云语义分割是具有很长的研究历史，这里将点云分割，分类，以及语义分割做一个简短的概念区别，点云语义分割在计算机视觉领域中是广泛的使用，尤其是在深度学习的应用中。在遥感领域PCSS通常被称之为“点云分类”，在某些情况下，也可以理解为“点云标记”，在本文中是指点云的每个点与语义的标签关联起来的任务称为PCSS。在基于监督学习的方法中广泛的使用在语义分割领域之前，对2.5D/3D的点云数据的非监督分割是指在不考虑语义信息的情况下，对具有相似的几何或者光谱特征的点云进行分类，所以在PCSS中，PCS（点云分割）可以作为一个预分割的步骤，并且影响着最终的语义结果。所以本文也包含了关于PCS方法的讨论。这部分内容将再在接下来的文章中发布。我们知道单个的物体的结构不能直接通过一帧的原始点云获取，比如城市规划和建筑信息建模（BIM）需要参考建筑物或者人造物，森林的遥感监测需要基于树木的几何结构信息，机器人的应用如同时构建地图与定位（SLAM）需要室内环境来绘制地图，在自动驾驶，目标检测，分割与分类是构建高精地图所必须的，所以点云的分割以及语义分割是3D视觉领域基本且关键的任务。点云的获取在计算机视觉和遥感领域，点云可以通过四种主要的技术获得，（1）根据图像衍生而得，比如通过双目相机，（2）基于光探测距离和测距系统比如lidar, （3）基于RGBD相机获取点云（4）Synthetic Aperture Radar (SAR)系统获取，基于这些不同的原理系统获取的点云数据，其数据的特征和应用的范围也是多种多样。下面将要介绍这些技术。图像衍生点云概括起来就是通过双目采集的图像，根据摄影测量学或者计算机视觉理论原理，自动或者半自动的计算出三维的点云信息，根据不同的平台，立体和多视角的图像衍生系统可以分为机载，卫星，以及无人机等。传统的摄影测量计算中采用半自动人机交互方式生成三维点，具有严格的几何约束和较高的测量精度。由于许多人工操作，生成这种类型的点数据非常耗时。因此，用这种方法生成大面积密集点是不可行的。在测量和遥感行业中，这些早期形成的“点云”被用于绘制和生成数字地表模型（DSM）和数字高程模型（DEM）。由于图像分辨率的限制和多视点图像处理能力的限制，传统的摄影测量只能从航空/卫星平台获取接近最低点的视图，建筑立面很少，只能生成2.5D的点云，而不是全三维点云，摄影测量原理也可以应用于近景摄影测量，以便从某些物体或小区域场景中获取点云，但在点云生成过程中也需要手动编辑。稠密匹配法、多视角立体视觉（MVS）和运动恢复结构（SfM）改变了图像衍生的点云，开启了多视角立体视觉的时代。SfM可以自动估计相机的位置和方向，使其能够同时处理多视图图像，而稠密匹配法和MVS算法提供了生成大量点云的能力。近年来，基于SfM和MVS的摄影技术可以很容易地获得城市尺度的全三维密集点云。然而，SfM和MVS的点云质量不如传统摄影测量或LiDAR技术生成的点云质量好，对于大区域尤其不可靠。在空间分辨率方面，卫星摄影测量的空间分辨率较低。然而，卫星相机能够在短时间内以相对较低的成本绘制大区域的地图。此外，由于新的稠密匹配技术及其空间分辨率的提高，卫星图像正成为图像衍生点云的重要数据源。雷达生成点云激光雷达（LiDAR）是一种测量和遥感技术。顾名思义，激光雷达利用激光测量传感器和被测物体之间的距离。大多数激光雷达系统都是基于脉冲的。基于脉冲的测量的基本原理是发射激光脉冲，然后测量该激光到达目标物体所需的时间。根据传感器和平台的不同，从每平方米不到10个点到每平方米数千个点，点云密度或分辨率差异很大。根据平台的不同，将激光雷达系统分为机载激光雷达扫描（ALS）、地面激光雷达扫描（TLS）、移动式激光雷达扫描（MLS）和无人激光雷达扫描（ULS）系统。机载激光雷达扫描ALS在机载平台上运行。早期的ALS-LiDAR数据是2.5D点云，与传统的摄影测量点云相似。由于机载平台到地面的距离很大，所以ALS点的密度通常较低。与传统的摄影测量相比，ALS点云的获取成本更高，而且通常不包含光谱信息。Vaihingen点云语义标注数据集是典型的ALS基准数据集。多光谱机载激光雷达是ALS系统的一种特殊形式，它利用不同的波长获取数据。多光谱激光雷达在提取水、植被和阴影方面表现良好，但数据不易获得。 TLS，也称为静态激光雷达扫描，使用安装在三脚架上的固定传感器进行扫描。由于它用于中、近距离环境，点云密度非常高。它的优势是能够提供真实、高质量的三维模型。到目前为止，TLS通常用于小型城市或森林的建模，以及遗产或艺术品文档。 MLS在地面上的移动车辆上运行，最常见的平台是汽车。目前，自主驾驶的研究与开发是一个热门话题，高精地图是必不可少的。因此，高精地图的生成是MLS最重要的应用。多个主流点云基准数据集属于MLS。 ULS系统通常部署在无人机或其他无人飞行器上。由于它们相对便宜，而且非常灵活，这种最近加入到LiDAR家族中的产品目前正变得越来越受欢迎。与平台在物体上方工作的ALS相比，ULS可以提供较短距离的激光雷达测量应用，以更高的精度收集更密集的点云。由于其平台体积小、重量轻，ULS具有很高的操作灵活性。因此，除了传统的激光雷达任务（例如，获取DSM），ULS在农林测量、灾害监测和采矿测量方面具有优势。在激光雷达扫描中，由于系统始终随平台运动，需要将点云的位置与全球导航卫星系统（GNSS）和惯性测量单元（IMU）数据相结合，以保证高质量的点云匹配。迄今为止，激光雷达一直是点云研究中最重要的数据源，并被用来提供地面真实情况来评估其他点云的质量。 RGB-D 点云 RGB-D相机是一种可以同时获取RGB和深度信息的传感器。有三种基于不同原理的RGB-D传感器：（a）结构光；（b）立体；（c）飞行时间。与LiDAR类似，RGB-D相机可以测量相机到物体之间的距离，但是像素级的。然而，RGB-D传感器比激光雷达系统便宜得多。微软的Kinect是最知名和使用最多的RGB-D传感器。在RGB-D相机中，不同传感器之间或传感器之间的相对方位元素被标定并已知，因此可以很容易地获得共配准的同步RGB图像和深度图。显然，点云并不是RGB-D扫描的直接产物。但是由于摄像机中心点的位置是已知的，因此可以很容易地获得深度图中每个像素的三维空间位置，然后直接用于生成点云。RGB-D相机有三个主要应用：目标跟踪、人体姿势或特征识别以及基于SLAM的环境重建。由于主流的RGB-D传感器距离较近，甚至比TLS近得多，因此通常用于室内环境。几种主流的室内点云分割基准是RGB-D数据。 SAR点云干涉合成孔径雷达（InSAR）是一种对遥感至关重要的雷达技术，它根据多个SAR图像对的比较生成地表变形或数字高程图。（这里不做过多介绍）点云特性从传感器发展和各种应用的角度出发，我们将点云分类为：（a）稀疏（<20pts/m^2）早期由于受匹配技术和计算能力的限制，摄影测量点云稀疏且体积小。当时，激光扫描系统的类型有限，并没有得到广泛的应用。ALS激光点云数据，也是稀疏的。由于受点云密度的限制，该阶段的点云无法覆盖目标的表面。因此，对精确的PCS或PPCS没有具体的需求。研究者主要集中在三维制图（DEM生成）和简单的目标提取上（b）密集（数百pts/m2）由于稠密匹配等计算机视觉算法，以及各种激光雷达系统和RGB-D传感器等高质量点云获取传感器的发展，开启了稠密点云的大数据时代。稠密的大规模点云为三维应用创造了更多的可能性，但同时也对实用算法有了更强烈的需求。因此PCS和PPCS是最新提出且必要的算法。计算机视觉和遥感都需要PCS和PCSS解决方案来开发类级别的交互式应用程序。（c）多源。从一般计算机视觉的角度来看，对点云及其相关算法的研究还停留在（b）阶段。然而，由于有利于星载平台和多传感器的发展，遥感研究人员对点云有了新的认识。新一代点云，如卫星摄影测量点云和TomoSAR点云，刺激了相关算法的需求。多源数据融合已成为遥感领域的一个发展趋势，但现有的计算机视觉算法对这类遥感数据集还不够。为了充分利用多源点云数据，需要进行更多的研究。如前所述，不同的点云具有不同的特性和应用环境。表一概述了各种点云的基本信息，包括点密度、优缺点和应用。点云应用从表二可以总结出几个问题：（a）激光雷达点云是个人计算机中最常用的数据，已广泛应用于建筑物（城市环境）和树木（森林）。建筑物也是传统计算机中最受欢迎的研究对象，由于建筑物通常是由规则的平面构成的，因此平面分割是建筑物分割的一个基本课题。（b）图像衍生的点云经常用于真实场景。然而，主要由于现有的标注的局限性，基于图像数据的PCS和PCSS研究并不多见。目前，只有一个基于图像衍生点的公共有影响力的数据集，其范围仅为单个建筑物周围的很小的区域。因此，需要在这方面作出更多努力。（c） RGB-D传感器受其近距离的限制，通常应用于室内环境。在PCS研究中，平面分割是RGB-D数据的主要任务。在PCSS研究中，由于RGB-D传感器有多个基准数据集，许多基于深度学习的方法都在这些数据集上进行了测试。（d）对于InSAR点云，虽然没有太多的PCS或PCSS研究，但它们在城市监测，特别是建筑物结构分割方面显示出了潜力。上一条：【点云论文速读】基于YOLO和K-Means的图像与点云三维目标检测方法下一条：推荐阅读【关闭】