百科问答小站 logo
百科问答小站 font logo



CTC和Encoder-Decoder有什么关系? 第1页

  

user avatar   maigo 网友的相关建议: 
      
  1. 是否把 LSTM + CTC 看成编码器 + 解码器的结构,我觉得是一个无所谓的问题。

其实任何一种网络结构,都可以看成编码器 + 解码器,只要把网络的低几层看成编码器,高几层看成解码器就行了。但对于 LSTM + CTC 来说,到底把哪几层看成编码器,哪几层看成解码器,并没有一个明确的界限,不像注意力网络中,编码器与解码器中间有一个注意力层的结构是跟其它层不同的。所以说 LSTM + CTC 是编码器 + 解码器,不能算错,但没什么意思。

2. 变长序列的端到端学习方法,我觉得有三种主流思路,除了 CTC 和注意力以外,还有 transducer。下面这篇文章就比较了三种方法用于语音识别的效果:

我对它们的总结是这样的:




  

相关话题

  如何评价AlphaGo Zero? 
  目前 AI 在疾病的诊断和治疗上,有哪些成功的应用? 
  如何评价 Face++ 旷视科技最新出品的检测专用 backbone 网络 DetNet ? 
  基于对比学习(Contrastive Learning)的文本表示模型【为什么】能学到语义【相似】度? 
  深度学习领域,你心目中 idea 最惊艳的论文是哪篇? 
  神经网络训练多个epoch,写论文的时候可以取最好的效果那一个epoch作为结果吗? 
  多任务学习中loss多次backward和loss加和后backward有区别吗? 
  如何激怒一位人工智能(机器学习、深度学习、强化学习等)爱好者? 
  如果百年后深度学习最终有了公认的数学理论作为基础,能解释实验中的各类玄学,那这个理论会长什么样子? 
  深度神经网络(DNN)是否模拟了人类大脑皮层结构? 

前一个讨论
如何看待Meta(恺明)最新论文ViTDet:只用ViT做backbone(不使用FPN)的检测模型?
下一个讨论
计算流体力学(CFD)里应用注意力机制(attention)是否可行?





© 2024-12-18 - tinynew.org. All Rights Reserved.
© 2024-12-18 - tinynew.org. 保留所有权利