半监督学习及其处理方法

半监督学习的定义

标注数据和图像通常是机器学习中成本最高的部分,因此在有限的标注数据的情况下,利用大量无标注数据来训练模型是很有吸引力的。这就是半监督学习的核心思想,其中少量有标注数据与大量无标注数据相结合。

半监督学习的三个假设

连续性、平滑性假设

连续性、平滑性假设认为相近的数据点可能具有相同的标签。根据这一假设,我们可以通过学习到的特征对数据点进行分类。

连续性、平滑性假设

集群假设

集群假设认为数据在高维空间中往往被组织成高密度的集群。同一集群的数据点可能具有相同的标签。因此,模型的决策边界应该位于密集的数据点区域之间,将它们分离成不连续的群组。

集群假设

流形假设

流形假设认为高维数据分布可以在一个嵌入式的低维空间中表示。这个低维空间被称为数据流形,通过在流形空间中进行学习,可以更好地利用数据的结构信息。

集群假设和连续性假设被认为是相对可靠的,并且我们可以根据学到的表征来对一个数据点进行分类。

半监督学习的处理方法

一致性正则化(Consistency Regularization)

一致性正则化的核心动机是利用连续性和集群假设。它的具体操作是对于一个给定的特征x,模型应该对潜在Augment(x)半径内的所有数据点做出类似的预测。这样,即使数据增强导致输入发生微小变化,模型的输出仍然保持一致。

加扰动不影响输出

相关论文

  • Semi-Supervised Semantic Segmentation with Cross-Consistency Training
    一致性正则化1

  • Semi-Supervised Semantic Segmentation with Directional Context-aware Consistency
    一致性正则化2

伪标签(Pseudo-labeling)

伪标签的核心动机是将半监督问题转换成全监督问题。具体操作是通过教师网络或全监督网络预测并生成伪标签。这样,我们可以将无标注数据作为有标注数据来训练模型,从而扩大训练集规模。

相关论文

  • Semi-Supervised Semantic Segmentation via Adaptive Equalization Learning
    伪标签1

  • Semi-Supervised Medical Image Segmentation via Cross Teaching between CNN and Transformer
    伪标签2

生成对抗网络(Generative Adversarial Network)

生成对抗网络的核心动机是利用鉴别器找到值得信赖的数据区域。通过生成器和鉴别器之间的对抗训练,生成对抗网络可以生成具有高质量的伪标签,并用它们来辅助训练。

相关论文

  • Adversarial Learning for Semi-Supervised Semantic Segmentation
    生成对抗网络

主动学习(active learning)

主动学习的核心动机是识别哪些未标记的点是最有价值的,并由人类在循环中对它们进行标记。通过这种方式,可以在有限标注资源的情况下,最大限度地提高模型性能。
主动学习

相关论文

  • Towards Fewer Annotations: Active Learning via Region Impurity and Prediction Uncertainty for Domain Adaptive Semantic Segmentation

以上是关于半监督学习的概要内容和常用处理方法。通过充分利用无标注数据,半监督学习可以在有限标注数据的情况下提高模型性