因为脸的复杂度很低。虽然人们可以感到脸的各种微妙差异,但其实是因为人脑里有专门的脸部识别区 [1-2],放大了实际图像里的variations。实际上人脸图像是可以用一个低维manifold表示的,所以StyleGAN之类模型可以把人脸表示得很好。而nlp是高度非线性,语义很diverse,每个段落都很specific,所以语料里可以直接transfer的语义比较稀疏,导致style transfer很难做。
[1] https://m.guokr.com/article/441966/
[2]
女王:求求题主放过我,我可不敢有什么政绩。。。