如果虚拟样本的“输入和输出对应关系其实和Dreal是一样的”,那虚拟样本一定会失效。
所以虚拟样本必须差异化才行。
举个例子:
+表示当前任务样本,-表示非当前任务样本,颜色标识类别。
这个时候因为few-shot问题,决策边界随便画画就可以正确分类了,但是query set来了之后可能泛化性很差。
MetaGAN[1]生成的虚拟样本(负样本)就是压缩特征空间,使决策边界不要乱搞。
+表示当前任务样本,-表示非当前任务样本,红色蓝色标识当前任务类别(real),灰色标识生成负样本(fake)。
这样一来,决策边界可以稳定的在support set周围产生。
再举个例子:
@杨朔 大佬的论文[2]在做增广的虚拟样本,目的是使从support set和base-class data中生成的样本贴近待推断的query set,以达到特征空间增广的目的。这样的虚拟样本就是和题主说的real data不一样了,因为它是去估计query set的分布而不是support set (real)。