谢邀~
硕士阶段正好是做这个topic的,来总结一下。有偏颇之处,欢迎指正。
首先介绍一下偏多标记学习框架。
在传统的监督学习中,有一个输入空间,还有一个输出空间(目标空间)。我们的目标是在从这两个空间独立同分布采样得到的训练集上,通过监督学习算法学习一个分类模型,该模型能准确地预测未见样本所属的类别(标记)。
从上述过程我们可以看出,监督信息是进行有效学习的关键因素。这里的监督信息通常意味着强监督信息,即,1)标记信息充足;2)标记信息唯一;3)标记信息明确。在强监督信息的假设下,通过学习,往往能获得一个泛化性能较强的模型。然而,在实际应用中,由于一些客观因素(如,资源受限,环境制约等)因素,我们往往难以获得强监督信息,有的仅仅是弱监督信息。这时问题就来了,在仅基于弱监督信息的情况下,我们是否依然能通过学习得到一个好的模型。
为了解决这个问题,各路大牛提出了多种弱监督学习框架,包括半监督学习[1],多标记学习[2]以及偏标记学习[3]等等。这些学习框架分别违背了上述强监督信息中提及的三点假设,也就是标注信息不充足,标注信息不唯一,以及标注信息有歧义。在现实场景中,实际的任务可能要更复杂,例如,当标记信息既不唯一又含有歧义,我们应当如何进行学习?为了解决这样的问题,我们提出了偏多标记学习框架(Partial Multi-label Learning, PML)。
首先来看一个现实场景中的例子,在众包平台上,多个标注者可能同时标注同一张图片,他们标注的并集就构成了候选标记集合,该集合既包含相关标记又包含无关标记(也称噪声标记)。如在图3中,虚线上面的是相关标记,虚线下面的是噪声标记(在训练阶段,并不知道哪些是相关标记)。
为了解决该问题,我们提出了一种新型弱监督学习框架,偏多标记学习。在偏多标记学习中,每个样本与一候选标记集相关联,该集合包含以下监督信息:
先讲这些,有空来更新我们提出的一些方法~
PS:最近太忙了,可能得过段时间再更新^-^
[1] Semi-supervised learning literature survey.
[2] A review on multi-label learning algorithms.
[3] Learning from partial labels.
可以参考这个问题部分标签学习和缺失标签学习到底什么异同?
以及我之前的回答:
部分标签学习和缺失标签学习到底什么异同? - 皓波的回答 - 知乎 https://www.zhihu.com/question/418818026/answer/1454922545
还可以参考我们在多标签学习的最新综述《The Emerging Trends of Multi-Label Learning》,里面也有对PML的介绍,
Arxiv地址:https://arxiv.org/abs/2011.11197
知乎: