百科问答小站 logo
百科问答小站 font logo



如何评价 MLSys 这个会议? 第1页

  

user avatar   ljc-51-4 网友的相关建议: 
      

(不定期更新SysML的paper =w=)

(督促自己写写简单的summary,有什么不对的地方欢迎指正!)


Ordering Chaos: Memory-Aware Scheduling of Irregularly Wired Neural Networks for Edge Devices

proceedings.mlsys.org/b

这篇文章从内存的角度优化 Irregularly Wired Neural Networks(一个graph结构诡异的神经网络)(从这个特定的神经网络入手角度清奇,因为这个网络结构优于以前的手动设计的模型)(虽然不知道神经结构搜索(NAS)为什么有很大需求在edge device上)

目标:在硬资源约束下,最小化内存占用峰值

方法:普通编译器只根据基础的拓扑书序schedule graph,不适用于Irregularly Wired Neural Networks,作者因而提出了一种内存感知编译器(SERENITY)利用动态编程来找到一个序列,从而最小化内存占用峰值的计划。还利用图形重写(重写子图)技术,可以进一步优化内存


Resource Elasticity in Distributed Deep Learning
proceedings.mlsys.org/s
(感觉比较engineer,简单读读)
发现:现在分布式学习的资源分配在整个生命周期是固定的
问题:固定资源分配带来的集群资源低效利用和 训练任务低效,以及分布式学习中straggler问题
解决:提出了两个机制:scaling heuristics and straggler detection
取决于资源需求和可用性(利用任务运行的统计数据)scaling out or in 系统资源,消除straggler影响,同时考虑scaling花销和效率提升 进行调度。在改变资源分配同时,会重复利用中间的program state最小化scaling cost。
挑战:(个人感觉像是一个非常engineer的问题)1)目前的framework(Tensorflow) 都在训练开始固定了job信息到一个计算图,基本上目前分布式学习资源需求是静态的。2)scaling out 也会增加batch size (这个问题太好解决感觉在无中生有)


Distributed Hierarchical GPU Parameter Server for Massive Scale Deep Learning Ads Systems

百度搜索出品 用于大规模深度学习广告系统的分布式GPU分层参数服务器。proceedings.mlsys.org/b

问题:广告系统的机器学习(CTR prediction problem)由于模型太大,fit不进gpu内存 导致训练低效,但是由于输入数据非常稀疏,训练时很多参数其实都没有用,而剩下的working parameter(当前batch输入会用到的参数)是可以fit进GPU内存的

解决:作者提出了一种GPU分层参数服务器做 用于系统分布式学习,利用 GPU High-Bandwidth Memory, CPU main memory 和SSD 作三层存储。

1)通过建立多个gpu之间的哈希表,让gpu之间直接通信,减少cpu-gpu的数据传输overhead,从而同步gpu的参数更新。

2)为了减少数据传输和IO带来的slow down,作者设计了一个4-stage pipeline,使得 inter-node network communications, SSD I/Os, CPU/GPU data transferring 和GPU computations 相互覆盖,隐藏IO延迟。

3)为了能连续的地址访问提升参数IO效率,作者提出了一个file-level parameter management strategy可以将更新的参数以batch的形式写入新SSD文件,从而高效地organize the materialized parameters



其他解析传送门

Salus: Fine-Grained GPU Sharing Primitives for Deep Learning Applications(细粒度分配GPU资源)

Blink: Fast and Generic Collectives for Distributed ML

Federated Optimization in Heterogeneous Networks

SLIDE:在CPU上利用sparsity加速训练( IN DEFENSE OF SMART ALGORITHMS OVER HARDWARE ACCELERATION FOR LARGE-SCALE DEEP LEARNING SYSTEMS)

MLPerf Training Benchmark (针对各种机器学习任务(如:图像分类,目标检测,机器翻译,强化学习等)给出不同的衡量标准)

WILLUMP: A Statistically-Aware End-To-End Optimizer ForMachine Learning Inference (设计了一套端到端的推理流水线优化 ,着力于加速特征计算,提高系统响应性能。主要思想:选择一部分对预测很重要,但是计算开销又不大的特征 进行推理)

Privacy-Preserving Bandits







  

相关话题

  人工智能翻译技术大概还需要多少年才能达到基本成熟的水准? 
  人工智能是不是走错了方向? 
  如何看待学霸君的高考机器人 Aidam 高考全国文科数学卷考了 134 分? 
  自动化专业就业方向是什么,会变成程序猿吗? 
  分析、抽象代数这种课对搞 data science 帮助大吗? 
  最近在知乎投广告的 Rokid 是什么来头?号称国产 AI 智能产品,技术上有这么厉害? 
  有没有玩家决定策略之后让AI按照策略自行作战的游戏? 
  马上计算机研一,想问一下机器学习、深度学习…大家都是怎么入门的? 
  在统计学领域有哪些经典奠基性的论文? 
  理工男,我感觉 win10 挺好用的,一点不卡,为什么有那么多人买Macbook 呢? 

前一个讨论
女孩子「一个人去西藏」可行吗?
下一个讨论
你为什么喜欢你自己?





© 2025-05-29 - tinynew.org. All Rights Reserved.
© 2025-05-29 - tinynew.org. 保留所有权利