……真无聊
就没人能介绍一下好的paper idea吗
我就看到好几篇我觉得挺有趣的文章
可能是我也是loser
===============
【持续更新】推荐几篇 抛砖引玉
我一直在做的方向是ode来分析neural network
比如我的icml2018年工作
Yiping Lu,Aoxiao Zhong,Quanzheng Li,Bin Dong. "Beyond Finite Layer Neural Network:Bridging Deep Architects and Numerical Differential Equations"Thirty-fifth International Conference on Machine Learning (ICML), 2018
可以看我之前的回答
ICML 2018 有哪些值得关注的亮点? - 2prime的回答 - 知乎 https://www.zhihu.com/question/276842383/answer/394370152
这篇paper把这个ODE的观点用到了flow model上
flowmodel最贵的一步要算neural network的jacobi 【变量代换公式】
这里用了ode观点一下子把计算量从O(n^2)->O(n)
作者最近有一篇FLORD也挺有意思的
这是我见过最convince的的用ODE给neural network会带来好处的工作!!!!
2. Zhang, Jingzhao, et al. "Direct Runge-Kutta Discretization Achieves Acceleration."arXiv preprint arXiv:1805.00521(2018).(Spotlight)
也是和Su, Candes, Boyd的paper一样用ODE建模nesterov加速的方法
大概是以前M.J 提出来了一系列可以达到O(1/k^p)收敛速度的ode,但是没人能证明的离散的算法收敛阶
这片工作据我所知是第一篇证明了离散的算法的收敛阶的
大概两点吧
1.L-smooth的假设在这里加强了
2.如果用s阶runge-kutta method收敛阶是O(1/k^(ps/(s+1)))可以看到我们的离散算法破坏了算法的收敛阶
其实有趣的事情是貌似在ode里好的格式在优化里会破坏收敛阶,在ode里很差的格式可以在优化里提升收敛阶(nesterov可以看成对gradient flow的线性多步法,就是很不稳定。。。)
3.Jin, Chi, et al. "Is Q-learning Provably Efficient?."arXiv preprint arXiv:1807.03765(2018).
读完看下吧