百科问答小站 logo
百科问答小站 font logo



如何评价FAIR提出的MaskFormer,在语义分割ADE20K上达到SOTA:55.6 mIoU? 第1页

  

user avatar   xiaohuzc 网友的相关建议: 
      

之前大部分的语义分割都是用pixel classification,这篇工作的创新之处是看成了一个instance mask prediction,思路挺新奇的。

一点额外想说的是,语义分割本身是没有instance区分的,标注也没有区分instance,那么如果看成instance mask预测的话,就只能简单地根据类别生成K个不同的mask,即各个类别的mask,这里也不区分类内的instance。这个instance mask prediction中的instance就是相对同一类的了,预测的mask也是固定为K,此时N queries其实也可以简化为K queries。

如果再往前的话,K queries可以固定为每个类别的queries,那么训练的loss就可以变成简单的K个sigmoid loss,即区分图像中是不是含有这个类别。每个类别的query和全局特征结合得到该类别的mask prediction。和论文里面说的fixed match基本类似。

而论文提出的方案更通用化,毕竟可以用于全景分割上。




  

相关话题

  Yoshua Bengio为什么能跟Hinton、LeCun相提并论?? 
  如何评价 DeepMind 于2016年9月12日公开的 AlphaGo 自战棋谱及3月人机大战解说? 
  人工智能真的不能达到人类的程度甚至超越人类? 
  新手如何入门pytorch? 
  如果围棋已经被人工智能完全破解,得出某色必胜,那围棋还有什么意义? 
  华为应届顶尖博士年薪百万,读博是不是有希望了? 
  为什么说大模型训练很难? 
  在实际工程系统中,MPC太复杂,难以做到realtime。因此都利用数据,MPC对比RL还有优势么? 
  为什么 AI 理解不了逻辑问题? 
  如何评价 MSRA 视觉组最新提出的 Deformable ConvNets V2? 

前一个讨论
生化环材四大天坑,来说说毕业都干了啥,天坑专业的封顶是干啥?
下一个讨论
腾讯启动“探星计划”用AI寻找脉冲星,并发布TEFS材料计算平台,物理科研将成为未来的主营业务之一吗?





© 2024-11-09 - tinynew.org. All Rights Reserved.
© 2024-11-09 - tinynew.org. 保留所有权利