百科问答小站 logo
百科问答小站 font logo



如何评价谷歌提出的 Pix2Seq:将目标检测看成语言建模,效果超过 DETR? 第1页

  

user avatar   xiaohuzc 网友的相关建议: 
      

Transformer is only you need!

简单看了一下,挺吃惊的,没有想到目标检测还可以这样搞,而且效果看起来还行,把目标检测看成语言建模,也不需要啥花里胡哨的loss了。

一些开创性的工作都是谷歌做的,如Transformer,Bert,ViT。




  

相关话题

  深度学习到底是「实验科学」还是「理论科学」?能否称为「算法」? 
  CVPR 2019 有哪些值得关注的亮点? 
  如何看待英伟达禁止精视软件(GeForce)在数据中心使用? 
  在CV/NLP/DL领域中,有哪些修改一行代码或者几行代码提升性能的算法? 
  你看好哪些人工智能的应用场景? 
  贝叶斯深度学习是什么,和传统神经网络有何不同? 
  如何看待上海某小学通过 AI 图像识别学生上课开小差并对学生进行评分? 
  为什么Bert中的CLS在未fine tune时作为sentence embedding性能非常糟糕? 
  如何看待Yoav Goldberg 怒怼来自MILA的GAN for NLG的paper? 
  如何评价野狐的国产围棋 AI「绝艺」? 

前一个讨论
主动学习(Active learning)算法的原理是什么,有哪些比较具体的应用?
下一个讨论
硕士方向,选择迁移学习还是自然语言处理?





© 2025-06-17 - tinynew.org. All Rights Reserved.
© 2025-06-17 - tinynew.org. 保留所有权利