首页

attention跟一维卷积的区别是啥？第1页

1

cartus 网友的相关建议:

拿NLP中序列建模来做个例子，有几点区别：

Context Window：因为一维卷积需要指定窗口的大小，比如图中，就是每次只看3个词。而且attention，这里是self-attention，他的context window是“无限”的，无限是指序列的长度是多少，窗口的大小就是多少，因为attention权重的计算涉及到一个序列里面所有的词。如上图所示，句子有5个词，窗口大小就是5. 所以一维卷积是“local”的，attention可以说是“global”的。
Time Complexity：这个其实也是刚才的窗口大小不同导致的，因为一维卷积只看k个词（窗口大小为k），如果序列长度为n，那么复杂度就是kn。而attention因为在每个位置，每个词的权重计算都要考虑到所有的词，所以复杂度就是n^2.
Dynamic Weights: 和二维卷积一样，一维卷积的权重是不变的，就是不会随着在序列位置中的变化而改变，但是attention不一样，每个位置的权重都是不一样的，attention scores（weights）是由dot-product计算出来的，具体地, softmax(qk/d^1/2).

但由于self-attention复杂度高，对长序列建模效果没有那么好，所以对一维卷积有很多改进的工作，比如上图的Pay Less Attention with Lightweight and Dynamic Convolutions （ICLR19， FAIR）1。还有比较新的Time-aware Large Kernel Convolutions （TaLK）2。

在NMT，LM等任务上的效果都能和attention-based模型扳手腕。基本上就从动态权重和动态窗口大小上面对一维卷积进行改进，而另一方面又有一些对attention的改进工作，比如将无限窗口限制一下，或者层次化一下，有太多文章这里就不赘述了。

Ref：

1.https://arxiv.org/abs/1901.10430

2.https://arxiv.org/abs/2002.03184

attention跟一维卷积的区别是啥？的其他答案点击这里

1

相关话题

  为什么现在的CNN模型都是在GoogleNet、VGGNet或者AlexNet上调整的？
  985工科研一觉得快要退学了怎么办？
  你会把救生艇上的位置让给妇女儿童和老人吗？
  物理学基础理论教材？
  你相信庞加莱回归会实现吗？
  苏联究竟发达到什么程度？
  对霍金的推崇是言过其实吗？
  物理定律能否脱离物理研究过程，直接通过数学演绎发现？
  如何评价深度学习之父Hinton发布的Capsule论文？
  钢铁侠为什么用钯元素做第一代弧形反应堆？

前一个讨论

为什么小模型已经可以很好地拟合数据集了，换大模型效果却要比小模型好？

下一个讨论

因果推断（causal inference）是回归（regression）问题的一种特例吗？

相关的话题

  多模态方面，有哪些牛组值得我们follow他们的工作？
  如何评价 2018CES上vivo发布与Synaptics合作的全球首款屏下指纹识别手机？
  为什么都说神经网络是个黑箱？
  未来 20 年，中国航天事业将会迎来哪些关键的技术节点？
  如何看待央视节目《消费主张》称小米 MIX 是世界首款全面屏手机？
  在计算资源有限的情况下，有什么深度学习的选题可以推荐/避免？
  如何评价微软亚洲研究院提出的LightRNN？
  人脸识别哪家强？
  腾讯称受禁令影响 WeChat 可能无法在美国获得新用户，主要影响是哪一方面？后续还将面临哪些问题？
  什么是迁移学习 (Transfer Learning)？这个领域历史发展前景如何？
  为什么在R语言里多用<-而不是=表示赋值？
  机器人群体能够干人类 98% 的非机械性工作的时代，社会会怎么样？
  为什么3缸机有抖动，5缸机却没有？
  目标检测中的mAP是什么含义？
  如何理解「Control is Dead」这一说法？
  如何评价2020年计算机视觉顶会CVPR投稿量破万的现象？
  如何看待美团创始人王兴评价华为：「忽悠能力和技术能力与特斯拉旗鼓相当」？
  Uber 的工资待遇怎样？
  如何看待李楠发表文章《别争了好吗，三星S8才是『真・全面屏』》？
  5 月 19 日，祝融号传回火星照片，照片中有哪些值得关注的信息？
  你有哪些照片或视频记录了「中国制造让人倍感自豪」的瞬间？
  网络上一位长者提出了“完全不依靠人工神经网络与机器学习算法实现人工智能”的理论，大家怎么看？
  如果2020年去世院士的数量超过原有数量的5%，是应该增加二次增选还是取消院士制度？
  如何评价《Science》封面文章《通过概率规划归纳的人类层次概念学习》?
  如何看待小米在台湾某会议预热会说了中国、国内、大陆？
  向李彦宏「泼冷水」一事从本质上看，是中国网民对百度的失望吗？
  读过朗道十卷（不一定读完）是怎样的体验？
  如何评价钉钉6.0发布会，钉钉又带火新名词「低代码」，有人能解释一下这个意思吗？
  央视报道武汉一线医生发来的消息：发热病人无法及时收治检测、未要求医务人员集中食宿等，可能产生哪些影响？
  英伟达表示「RTX 30 系列和 40 系显卡将同时共存以确保供应稳定」，有何信息值得关注？

© 2025-06-06 - tinynew.org. All Rights Reserved.
© 2025-06-06 - tinynew.org. 保留所有权利