百科问答小站 logo
百科问答小站 font logo



多任务学习成功的原因是引入了别的数据库还是多任务框架本身呢? 第1页

  

user avatar   ka-pei-mao-70-27 网友的相关建议: 
      

1. MTL的样本之痛

多任务学习(Multi-task learning, MTL)旨在多种任务共享模型部分网络参数,联合训练,获得更好的性能、更少的参数、更优的泛化能力:

问题:试想一下若 仅有 的标注,却没有其他任务的标注,如何计算 ?

在网络 时,每一批训练样本都要同时算多个任务的 ,这就需要在样本数据上同时标注各个任务的 ground truth,即 上兼具 标注,这种样本需要耗费大量的人力进行样本标注工作。

2. MTL的样本独立同分布假设之痛

假设我们对上述MTL框架做一个稍稍的调整:

可以看到,每一批训练样本中都混合了各个任务的样本,都能够同时计算各个任务的 ,但是,机器学习任务训练数据遵循独立同分布的假设 (Independently and Identically Distributed, IID) ,如果每种任务来自不同的 ,各自分布迥异,任务数据通过encoder映射到特征空间,因为没有约束,各领域数据大概率在特种空间也分布迥异,这造成了后续各个 将非独立同分布的数据进行学习。

3. Cross-Domain MTL的解决思路

为了解决MTL的跨领域样本非独立同分布的问题,Cross-Domain Multi-task Learning for Object Detection and Saliency Estimation 这篇文章引入了 ,以此对多领域的特征数据进行分布约束,让各领域的数据在特征空间里趋向独立同分布:

如上图所示,来自不同领域的 ,通过共享的ResNet-50,提取出各自的特征 ,如何让两者趋向独立同分布呢?论文中使用了MMD损失函数:

假设有两个离散分布 和 ,我们可以通过这两个分布的各阶矩来判断分布的相似性,比如

  • 一阶矩:比较均值
  • 二阶矩:比较方差
  • 阶矩:

MMD的基本思想:如果两个随机变量的任意阶矩都相同的话,那么这两个随机变量的分布一致,否则,两个分布之间差距最大的矩将被用来作为度量两个随机变量距离的标准。假设 函数将数据可以提取出足够多阶的矩(将数据映射到高维空间 中),优化函数变成了:

于是问题变成了,寻找映射函数 ,将两个分布的数据映射到希尔伯特高维空间 中,优化映射函数参数,使得两个离散分布在 空间中距离最小。

这样,两个分布的距离,就可以通过在希尔伯特空间的两个点的内积进行表示,进一步对 式进行推导得:

里面的 即核函数,通过 从将 维的 向量映射到希尔伯特空间 中,使得对任意的 有:

文章中采用的数双线性核函数

其中 是可学习的非零权重矩阵, 是单位矩阵, 是可学习的标量,最终,带约束的MMD损失如下;

最后,各任务的 经过朴实无化的线性组合,即:

4. Task similarity matrix

作者根据Domain的相似度度量,使用目标检测、显著性检测、分割、关键点提取四项任务(共享ResNet-50进行特征提取),绘制了任务相似度矩阵,如下所示:

5. 参考文献

openaccess.thecvf.com/c


user avatar   tylin98 网友的相关建议: 
      

女王:求求题主放过我,我可不敢有什么政绩。。。




  

相关话题

  面试官如何判断面试者的机器学习水平? 
  怎样计算两个服从高斯分布的向量乘积的期望? 
  贝叶斯深度学习是什么,和传统神经网络有何不同? 
  如何评价Hinton在加拿大多伦多大学关于用“capsule”作为下一代CNN的演讲? 
  为什么yolov5从零开始训练(不在ImageNet上预训练)能够达到如此高的性能? 
  深度学习中,模型大了好还是小了好呢? 
  如果学习从零开始学习Pytorch,有优秀的开源项目可以推荐吗? 
  如何解决图神经网络(GNN)训练中过度平滑的问题? 
  如何评价生成模型框架 ZhuSuan? 
  请问在金融风控方向,如何运用用户行为序列进行特征设计和挖掘? 

前一个讨论
如何评价 4 月 1 日张国荣超清修复版《热 • 情演唱会》?像素级还原 22 年前演唱会是什么体验?
下一个讨论
了解/从事机器学习/深度学习系统相关的研究需要什么样的知识结构?





© 2025-04-15 - tinynew.org. All Rights Reserved.
© 2025-04-15 - tinynew.org. 保留所有权利