百科问答小站 logo
百科问答小站 font logo



如何评价谷歌提出的 Pix2Seq:将目标检测看成语言建模,效果超过 DETR? 第1页

  

user avatar   xiaohuzc 网友的相关建议: 
      

Transformer is only you need!

简单看了一下,挺吃惊的,没有想到目标检测还可以这样搞,而且效果看起来还行,把目标检测看成语言建模,也不需要啥花里胡哨的loss了。

一些开创性的工作都是谷歌做的,如Transformer,Bert,ViT。




  

相关话题

  卷积神经网络如果将池化层去除,与神经网络的区别还大么? 
  机器学习里面的流形都是怎么用的? 
  如何看待与评价 AAAI 2022 的录用结果? 
  如何评价全新的图片格式BPG,它会在将来彻底取代JPG吗? 
  基于深度学习的人工智能程序和传统程序的差别在哪里? 
  计算机视觉是否已经进入瓶颈期? 
  现在互联网公司还有做特征工程的工作吗? 
  最近在知乎投广告的 Rokid 是什么来头?号称国产 AI 智能产品,技术上有这么厉害? 
  神经网络中的能量函数是如何定义的? 
  2021 年了,机器/深度学习还有哪些坑比较好挖? 

前一个讨论
主动学习(Active learning)算法的原理是什么,有哪些比较具体的应用?
下一个讨论
硕士方向,选择迁移学习还是自然语言处理?





© 2025-05-28 - tinynew.org. All Rights Reserved.
© 2025-05-28 - tinynew.org. 保留所有权利