首页

attention跟一维卷积的区别是啥？第1页

1

cartus 网友的相关建议:

拿NLP中序列建模来做个例子，有几点区别：

Context Window：因为一维卷积需要指定窗口的大小，比如图中，就是每次只看3个词。而且attention，这里是self-attention，他的context window是“无限”的，无限是指序列的长度是多少，窗口的大小就是多少，因为attention权重的计算涉及到一个序列里面所有的词。如上图所示，句子有5个词，窗口大小就是5. 所以一维卷积是“local”的，attention可以说是“global”的。
Time Complexity：这个其实也是刚才的窗口大小不同导致的，因为一维卷积只看k个词（窗口大小为k），如果序列长度为n，那么复杂度就是kn。而attention因为在每个位置，每个词的权重计算都要考虑到所有的词，所以复杂度就是n^2.
Dynamic Weights: 和二维卷积一样，一维卷积的权重是不变的，就是不会随着在序列位置中的变化而改变，但是attention不一样，每个位置的权重都是不一样的，attention scores（weights）是由dot-product计算出来的，具体地, softmax(qk/d^1/2).

但由于self-attention复杂度高，对长序列建模效果没有那么好，所以对一维卷积有很多改进的工作，比如上图的Pay Less Attention with Lightweight and Dynamic Convolutions （ICLR19， FAIR）1。还有比较新的Time-aware Large Kernel Convolutions （TaLK）2。

在NMT，LM等任务上的效果都能和attention-based模型扳手腕。基本上就从动态权重和动态窗口大小上面对一维卷积进行改进，而另一方面又有一些对attention的改进工作，比如将无限窗口限制一下，或者层次化一下，有太多文章这里就不赘述了。

Ref：

1.https://arxiv.org/abs/1901.10430

2.https://arxiv.org/abs/2002.03184

attention跟一维卷积的区别是啥？的其他答案点击这里

1

相关话题

  如果科技真的以人为本，那为什么网页大都用白色作为底色，而不是绿色？
  普通人和大师的差距在哪?
  电影《阿凡达》中的纳美人文明究竟是高等还是低等？
  高斯过程的kernel构成的矩阵为何叫协方差矩阵而不是相关系数矩阵？
  如何看待高通下两代旗舰 SoC 都将交给台积电代工？
  把宗教哲学（佛道思想）和理论物理相统一是否合适？
  简单解释一下sparse autoencoder, sparse coding和restricted boltzmann machine的关系？
  如何看待锤子科技515发布会公然作假：使用苹果系统，而非锤子系统演示所谓TNT的部分功能？
  如何看待A.O.史密斯AI-LINK全联全控智能物联？会对生活产生哪些影响？
  AI（或者说神经网络/深度学习）能够实现科学（尤其是物理学）研究中提出假设这一步嘛？

前一个讨论

为什么小模型已经可以很好地拟合数据集了，换大模型效果却要比小模型好？

下一个讨论

因果推断（causal inference）是回归（regression）问题的一种特例吗？

相关的话题

  如果以后的战争全靠无人机，是否有可能职业玩家成为操作者？
  大家都是在哪儿得到最快、最新、最可靠的新闻？
  为什么人类已经可以研究比原子还小的基本粒子，却连以分子和细胞为单位的化学、生物学都搞不清楚？
  以现在人类的科技水平，有什么狂妄的方式向1200年前的人们展示如今人类的强大呢？
  中国历史进程在哪个节点上发生变化，工业革命就可能出现在中国？
  我们现在是不是处于历史上最好的时代？
  如何证明马尔科夫链一定会达到稳态？
  Mac采用了ARM芯片对Windows及整个PC行业将产生什么影响？其竞争对手会怎样应对？
  如何看待核武器专家卢鹤绂院士晚年的反相对论活动？
  微软声明「因超出合理控制范围的情况而导致无法履行或延迟履行其义务，不承担任何责任或义务」，意味着什么？
  历史上有哪些大家一致看好最后黄了的事情？
  2020年9月20日WeChat在美应用商店被下架，并被叫停美境内转账付款服务，将有哪些影响？
  中国有哪些引以为傲的发明？
  为何感觉“知识蒸馏”这几年没有什么成果？
  机器学习中的 Bias（偏差）、Error（误差）、Variance（方差）有什么区别和联系？
  如何看待马云称手机将在 5 年内消失？这需要哪些技术支持？
  Python中 __init__的通俗解释是什么？
  如何评价MXNet发布的1.0版本？
  能识别情绪的机器人可以算做有情感的机器人吗？
  iPhone 13 或将支持低轨道卫星通讯，这意味着什么？将会给手机使用带来哪些便利？
  如何看待核武器专家卢鹤绂院士晚年的反相对论活动？
  有哪些科学家曾获得过国家最高科学技术奖？他们都取得了哪些瞩目的成就？
  传统文化能不能让人在当今社会赚大钱？能不能指导一个国家的科技进步？
  对于大一物理专业新生，有没有什么忠告（最好能结合亲身经历）？
  俄罗斯武装力量是全球最先进的军队，这是真的吗？
  如何评价北京邮电大学学生「老师好我叫何同学」发布的视频「5G 在日常生活中的真实体验」？
  为什么在实际的kaggle比赛中，GBDT和Random Forest效果非常好？
  哪些中国文化对科技发展有促进作用？
  如何评价DeepMind新提出的MuZero算法？
  机器学习里的 kernel 是指什么？

© 2025-06-26 - tinynew.org. All Rights Reserved.
© 2025-06-26 - tinynew.org. 保留所有权利