在计算机视觉任务中，运用Transformer和Non-local有何本质区别？第1页

shaohuali 网友的相关建议:

3年后再看non-local NN，原来 non-local block = transformer layer (single head) - FFN - positional encoding啊！

[1] 证明了FFN(即MLP)的重要性。这可能解释了为什么几层Non-local layer叠起来提升不大。我自己的实验证明positional encoding对分割任务是有提升的。另外很多transformer for cv的paper都证明multi head表现的比single head更好。

[1] Attention is Not All You Need: Pure Attention Loses Rank Doubly Exponentially with Depth. arXiv:2103.03404.

ai-hardcore 网友的相关建议:

女王:求求题主放过我，我可不敢有什么政绩。。。

在计算机视觉任务中，运用Transformer和Non-local有何本质区别？的其他答案点击这里

相关话题

  如何看待在某度搜不到megengine官网？
  深度学习领域，你心目中 idea 最惊艳的论文是哪篇？
  深度学习（机器学习）的下一步如何发展？
  如何评价FAIR提出的MaskFormer，在语义分割ADE20K上达到SOTA：55.6 mIoU？
  深度学习attention机制中的Q,K,V分别是从哪来的？
  人脸识别哪家强？
  transformer 为什么使用 layer normalization，而不是其他的归一化方法？
  机器学习中如何识别图片中的手是手背还是手心？
  计算成像(computational photography)方向的就业前景如何？
  如何看待2021年秋招算法岗灰飞烟灭？

在计算机视觉任务中，运用Transformer和Non-local有何本质区别？ 第1页

相关话题

前一个讨论

下一个讨论

相关的话题

在计算机视觉任务中，运用Transformer和Non-local有何本质区别？第1页