百科问答小站 logo
百科问答小站 font logo



如何评价谷歌提出的 Pix2Seq:将目标检测看成语言建模,效果超过 DETR? 第1页

  

user avatar   xiaohuzc 网友的相关建议: 
      

Transformer is only you need!

简单看了一下,挺吃惊的,没有想到目标检测还可以这样搞,而且效果看起来还行,把目标检测看成语言建模,也不需要啥花里胡哨的loss了。

一些开创性的工作都是谷歌做的,如Transformer,Bert,ViT。




  

相关话题

  如何评价伊朗核科学家被 AI 辅助的遥控机枪杀死? 
  三维重建怎么入门? 
  有没有可能让计算机去理解代码,从而写代码? 
  如何看待Tensor Comprehensions?与TVM有何异同? 
  AlphaGo 有没有「棋风」?它在下棋时会犯错吗? 
  为什么不训练黑猩猩来代替人民从事体力和简单重复操作呢? 
  在文本分类任务中,有哪些论文中很少提及却对性能有重要影响的tricks? 
  无人车为什么一定要用激光雷达做,双目视觉难道不行吗? 
  如何评价PyTorch 0.4.0? 
  如何激怒一位人工智能(机器学习、深度学习、强化学习等)爱好者? 

前一个讨论
主动学习(Active learning)算法的原理是什么,有哪些比较具体的应用?
下一个讨论
硕士方向,选择迁移学习还是自然语言处理?





© 2025-03-29 - tinynew.org. All Rights Reserved.
© 2025-03-29 - tinynew.org. 保留所有权利