百科问答小站 logo
百科问答小站 font logo



如何评价谷歌提出的 Pix2Seq:将目标检测看成语言建模,效果超过 DETR? 第1页

  

user avatar   xiaohuzc 网友的相关建议: 
      

Transformer is only you need!

简单看了一下,挺吃惊的,没有想到目标检测还可以这样搞,而且效果看起来还行,把目标检测看成语言建模,也不需要啥花里胡哨的loss了。

一些开创性的工作都是谷歌做的,如Transformer,Bert,ViT。




  

相关话题

  有什么深度学习数学基础书推荐? 
  如何评价微软提出的无监督视觉模型BEiT:ImageNet达到88.6,ADE20K达到57.0? 
  科技失控到底意味着什么? 
  推荐系统有什么危害? 
  自学深度学习是怎样一种体验? 
  你为什么选择华为? 
  只利用现有科技,不计成本的发展强人工智能,在短期内能成功吗? 
  如何看待FAIR提出的8-bit optimizer:效果和32-bit optimizer相当? 
  如何看待阿里巴巴成立全球研究院“达摩院” 引入顶尖科学家3年研发投入1000亿? 
  如何评价朱广权battle AI手语主播?AI能否取代手语翻译,造福更多聋哑人? 

前一个讨论
主动学习(Active learning)算法的原理是什么,有哪些比较具体的应用?
下一个讨论
硕士方向,选择迁移学习还是自然语言处理?





© 2025-05-27 - tinynew.org. All Rights Reserved.
© 2025-05-27 - tinynew.org. 保留所有权利