曾道人玄机 > 新闻爆料 > 正文

大会 亲历NIPS 2017:播种与思考

文章来源:
字体:
发布时间:2017-12-20 07:58:59

原题目:大会 | 亲历NIPS 2017:播种与思考

编者按:今年的NIPS大会就在本月刚落下帷幕,微软亚洲研究院机器学习组实习生汪跃亲自介入了本次大会,并为我们带来了参加本次大会的见闻和感触。想晓得大会上到底产生了什么,那就跟我们一起来看看吧。

机器学习领域的顶会NIPS 2017于12月3日至9日在漂亮的加州长滩(Long Beach)举行,长滩的好气象也带给了我一个善意情,让我精力丰满地去迎接来自前沿常识的浸礼。

今年共有超过8000名来自世界各地的研讨职员注册并加入了会议,比拟去年,参加人数大幅度增长。在致揭幕辞的时候,组织者开了个玩笑,假如会议的增加速度始终坚持,那么会议的注册人数将在2035年超过世界人口的数目。这个让人忍俊不禁的玩笑就是NIPS 2017在我记忆中留下的残暴画面的起笔。

本次大会的内容涵盖了机器学习、神经迷信、认知科学、心理学、计算机视觉、统计语言学和信息论等156个领域。在今年提交的3240篇论文中,679篇被接收,接受比例只有21%,入选论文中有527篇posters,112篇spotlights和40篇orals。

本次NIPS大会共评比出三篇最佳论文(Best paper awards)和一篇Test of time award,分离是:

Best paper awards:

Noam Brown, Tuomas Sandholm. Safe and Nested Subgame Solving for ImperfectInformation Games.

这篇文章解决了不完善信息博弈的问题,基于这项技术的Libratus项目,战胜了德州扑克的多少位人类顶级玩家。

Hongseok Namkoong, John Duchi. Variancebased Regularization with Convex Objectives.

这篇文章研究了随机优化危险最小化问题,给出了一个方差项的凸的替换项使得能在计算复杂度和计算误差精度之间实现衡量。

Wittawat Jitkrittum, Wenkai Xu, Zoltan Szabo, Kenji Fukumizu, Arthur Gretton. A LinearTime Kernel GoodnessofFit Test.

这篇文章提出了一个全新的拟合优度(goodnessoffit)的算法,新算法的样本庞杂度跟着样本量的增长线性增长。

Test of time award:

Ali Rahimi, Benjamen Recht. Random Features for LargeScale Kernel Machines. NIPS 2007. Test of time award

嘉奖给十年前的一篇经典的文章。这篇文章通过利用随机特征映射来加速大规模核方法训练。

在参加NIPS 2017的过程中,我比拟关注的是强化学习这一领域,其中有许多有意思的tutorial,poster和invited talk。从总体趋势来看,今年的NIPS 上不光有很多工作在做强化学习的利用,也有很多的眼光被投向了对强化学习算法更深入的理解以及基于这种理解所做的基础算法上的改良。这种对于基础算法自身的探讨和理解往往会告知我们良多问题的实质,主意和结论也都让人感到大受启示。

举几个例子来说,Zap QLearning通过火析Qlearning的方差,提出了名为zap Qlearning 的算法,使得新算法的渐进方差到达最优。具体来说,传统Qlearning算法的收敛慢、不稳定等问题一直困扰着大家。而这篇文章证明了一个定理:阐明传统的Qlearning算法在一些假设下,渐进方差会趋于无限,从而解释了Qlearning算法不稳定、难收敛的起因。进一步,作者依据matrix gain技术,提出了Zap Qlearning算法,使得新算法的方差达到最小,并且证明了算法的收敛性。

在Shallow Updates for Deep Reinforcement Learning中,作者将linear RL 和deep RL 结合起来,iPhone X人脸辨认再翻车,还能不能好好游玩了,扬长避短。具体来说,深度强化学习(DRL),例如DQN等办法,在最近一段时间获得了非常多的前沿的成绩,但是有非常多的非常敏感的超参需要手动去调剂。对于浅层强化学习来说,例如线性函数近似的方法,算法更加稳固,并且不那么多的超参数需要去调整,但是往往需要精心设计过的特征提取。在这个工作中,作者提出了LSDQN 的算法,联合了深度强化学习算法中的特征提取和浅层强化学习算法。具体做法是先训练深度强化学习网络,而后将神经网络的最后一层看成是浅层线性模型,将最后一层的参数应用传统浅层强化学习算法进行从新调整。最后作者在5个Atari游戏上做了实验,实验结果也是表现出来这一简略的idea非常的有效。

除了poster,NIPS上也有很多令人印象深刻的tutorial,invited talk 等,例如:卡耐基?梅隆大学的Emma Brunskill 做了题为Reinforcement Learning with People的tutorial,跑盘:中天·江上明月跃墅样板房1月初开放。从强化学习帮助人(强化学习在生涯中的运用)和人帮助强化学习(人参与到强化学习的学习中)两个角度,全面的介绍了强化学习最近一段时间的发展。其中提到的很多概念,也在poster环节看到了很多的paper做了详细的工作。比方ExplorationExpectation tradeoff、multiagent reinforcement learning、Policy evaluation等。

详细来说,tutorial 先是介绍了强化学习的相关背景和最近大家关注的一些标题。例如最基本的MDP 的定义,强化学习通常的setting,常用的解决强化学习问题的三个方式论:value function based、policy based、model based,以及它们之间的一些关联。

在介绍强化学习帮助人的环节,tutorial 主要集中在如何高效正确鲁棒地做policy evaluation的问题, 特别介绍了很对在offpolicy setting下的batch RL算法的分析和改进。

在先容人赞助强化学习的环节,tutorial主要从人在强化学习算法学习进程中所起的作用的角度,介绍了相关的工作。例如如何设计reward,如何给RL agent 做演示从而进行模拟学习,如何让人辅助RL agent 做好ExplorationExploitation tradeoff等等。

来自加拿大麦吉尔大学的Joelle Pineau 做了题为Reproducibility in Deep Reinforcement Learning and Beyond 的invited talk。内容是最近大家特殊关注的强化学习中实验成果可反复性的相关内容,信任也引起了大局部强化学习范畴的研究者的共识,引发了大家对试验论断牢靠性的思考和质疑。来自斯坦福大学的Ben Van Roy 做了题为Deep Exploration Via Randomized Value Functions的invited talk,带着大家一起探讨了deep exploration在强化学习问题中的主要性以及解决措施, 表明了更鲁棒的AI须要一个更有效的deep exploration策略的观点。

今年微软亚洲研究院机器学习组共有4篇文章发表在NIPS上,分别是对于机器翻译、GBDT、和强化学习的。其中有关机器翻译的两项工作着眼于把decoder做得更精致,分别引入了价值网络和“斟酌”的思维;GBDT的利器LightGBM已经开源了几个月并在GitHub上积聚了4371多颗星;有关强化学习的工作解决了在noniid的情况下进行policy evaluation的重要理论问题。下面我来给大家展现一下我们的研究结果。

这四篇论文分别是:

Xia, Yingce, etal. "Deliberation networks:Sequence generation beyond onepassdecoding." Advances in Neural Information Processing Systems.2017.

He, Di, et al. "Decoding with value networks for neural machine translation." Advancesin Neural Information Processing Systems. 2017.

Wang, Yue, et al. "Finite sample analysis of the GTD Policy Evaluation Algorithms in MarkovSetting." Advances in Neural Information Processing Systems.2017.

Ke, Guolin, et al. "A Highly Efficient Gradient Boosting Decision Tree." Advances in Neural Information Processing Systems. 2017.

其中前两篇论文已经过我们组其余两位结合培育博士生做过具体讲授,有兴趣的同学可以点击下面链接:

接下来,我对另外两篇论文做一个简单的介绍。

A Highly Efficient Gradient Boosting Decision Tree

这篇论文提出了一个名为LightGBM的工具,解决了非经常用的梯度晋升决议树Gradient Boosting Decision Tree (GBDT) 在大范围练习时十分耗时的问题。LightGBM 的设计的思路重要有两点:1. 单个机器在不就义速度的情形下,尽可能多地用上更多的数据;2.多机并行的时候,通讯的代价尽可能地低,并且在盘算上能够做到线性加速。

Gradientbased OneSide Sampling (GOSS) 和 Exclusive Feature Bundling (EFB)这两项技巧分辨减小了样本数和特点数,从而极大地加快了GBDT训练速度,并且进步了结果精度,从实验结果来看当然是又快又好。这个名目在GitHub上已经有4000+ 个星和1000+个fork,并且咱们还供给了python, R等的接口,感兴趣的同窗可以去试着用一用哦。

GitHub项目主页地址:http://www.cntlwj.com/Microsoft/LightGBM

Finite sample analysis of the GTD Policy Evaluation Algorithms in Markov Setting

这是一篇强化学习方面的理论性论文,解决的是在 强化学习中一个重要问题??策略评估 (Policy Evaluation)在更贴近实际的假设下的收敛性分析。策略评估的目的是估量给定策略的价 值函数(从任一状况动身,物流机器人篇|CeMAT Asia 2017回想,按照给定的策略时,冀望意思下将来的累计回报)。 当状态空间特别 大或者是持续空间的时候,线性函数近似下的 GTD 策略评估算法无比常用。斟酌到收集数据的过 程非常消耗时间和代价,明白地的理解 GTD算法在有限样本情况下的表示就显得异常重要。之前 的工作将 GTD 算法与鞍点问题树立了接洽,并且在样本独立同分布和步长为定值的情况下给出了 GTD 算法的有限样本误差分析。然而,我们都知道,在实际的强化学习问题中,数据都是由马氏 决策过程发生的,并不是独破同散布的。并且在实际中,步长往往也不必定是一个定值。因而在我 们的工作中,我们首先证实了在数据来自于马尔科夫链的情况下,鞍点问题的盼望意义下和高概率 意义下的有限样本误差,进而得到了更濒临于实际情形下的 GTD 的算法的有限样本误差分析。

从我们的结果中可以看到, 在实际中的马尔科夫的情形下,(1)GTD算法确切仍然收敛;(2) 收敛的速率依附于步长的设定和马尔科夫链的混合时间这一属性;(3)通过混杂时间的角度说明 了教训回放这一技能的有效性,其有效性可以懂得成缩短了马尔科夫链的混合时光。就我们所知, 我们的工作首次给出了 GTD 算法在马尔科夫情况下的有限样本误差分析。

短短几天的NIPS之行收成满满,也盼望能和众多研究者一起持续摸索科学的前沿。

作者介绍

汪跃,北京交通大学在读博士生,专业是概率论与数理统计,目前在微软亚洲研究院机器学习组做实习生,导师是陈薇研究员。感兴致的研究方向是在强化学习中的算法实践剖析跟算法设计等方面,以及优化算法相干方向。