谢邀。主要是看GAN生成样本的质量,来决定怎么用。最基本的质量判断是两个指标: 真实性(realism)和多样性(diversity)。生成的图像不光要真实,还要多样(举例来说,人脸的GAN不能只会生成 成龙的脸,要生成训练集之外的),最重要是能符合原始数据集的分布。这样用GAN生成数据训练出来的模型才不会跑偏。
1。GAN 生成的数据都是从训练集里面出来的,有包含新的信息么?这个问题我记得看过一个老外的讲座,老外反问学生,你怎么定义新的信息?你觉得StyleGAN或者很多GAN,他们从一个真实样本变到另一个真实样本之间的中间结果(interpolation 如下图中间的人脸),算不算新的信息。换句话说,这看你怎么理解新的信息。原始训练数据都是离散的,而GAN生成的样本是更多离散的数据点,弥补了原来离散样本之间的空间。所以从这个角度说,我们用GAN生成的数据没有引入新的信息,而是和其他data augmentation方法一样,只是让模型更容易学好整个空间。
2。联想:拿GAN生成数据加入训练,其实相比之下,有个更straight forward的data augmentation的东西叫 mix-up,我是https://arxiv.org/abs/1812.01187在mu li大神imagenet的文章里第一次见到,应该还有更早的来源。
而去年则是在semi-supervised learning领域疯狂刷分的,例如,Bengio作为作者的 https://arxiv.org/pdf/1903.03825.pdf,Goodfellow作为作者的mix-match (https://arxiv.org/abs/1905.02249) 也是用这个方法。 大家有兴趣也可以去想想这种方法为啥work,那就能理解用GAN生成的数据为啥能work了。 其实是一样的。
最后感谢大家看完~欢迎关注分享点赞~也可以check我的一些其他文章