首页

Partial Multi-Label Learning是什么？它的发展史又是怎样的？最新的进展如何？第1页

xie-niu-nai-4 网友的相关建议:

谢邀~

硕士阶段正好是做这个topic的，来总结一下。有偏颇之处，欢迎指正。

首先介绍一下偏多标记学习框架。

偏多标记学习框架

在传统的监督学习中，有一个输入空间，还有一个输出空间(目标空间)。我们的目标是在从这两个空间独立同分布采样得到的训练集上，通过监督学习算法学习一个分类模型，该模型能准确地预测未见样本所属的类别(标记)。

从上述过程我们可以看出，监督信息是进行有效学习的关键因素。这里的监督信息通常意味着强监督信息，即，1）标记信息充足；2）标记信息唯一；3）标记信息明确。在强监督信息的假设下，通过学习，往往能获得一个泛化性能较强的模型。然而，在实际应用中，由于一些客观因素(如，资源受限，环境制约等)因素，我们往往难以获得强监督信息，有的仅仅是弱监督信息。这时问题就来了，在仅基于弱监督信息的情况下，我们是否依然能通过学习得到一个好的模型。

为了解决这个问题，各路大牛提出了多种弱监督学习框架，包括半监督学习[1]，多标记学习[2]以及偏标记学习[3]等等。这些学习框架分别违背了上述强监督信息中提及的三点假设，也就是标注信息不充足，标注信息不唯一，以及标注信息有歧义。在现实场景中，实际的任务可能要更复杂，例如，当标记信息既不唯一又含有歧义，我们应当如何进行学习？为了解决这样的问题，我们提出了偏多标记学习框架(Partial Multi-label Learning, PML)。

首先来看一个现实场景中的例子，在众包平台上，多个标注者可能同时标注同一张图片，他们标注的并集就构成了候选标记集合，该集合既包含相关标记又包含无关标记(也称噪声标记)。如在图3中，虚线上面的是相关标记，虚线下面的是噪声标记(在训练阶段，并不知道哪些是相关标记)。

为了解决该问题，我们提出了一种新型弱监督学习框架，偏多标记学习。在偏多标记学习中，每个样本与一候选标记集相关联，该集合包含以下监督信息：