对ML有兴趣的福建电信女孩子进来看看

腾讯AI Lab对会议的三大热点——模型壓缩、自动机器学习、机器学习及最优化算法相关的23篇论文进行了解读

模型压缩是近期深度学习领域中一个较为热门的研究方向,通过對模型的网络结构或者权重表示方式进行简化在精度损失可控的前提下,降低模型的计算复杂度和参数规模以解决深度学习模型计算效率较低的问题。粗略统计本届NIPS有15-20篇模型压缩相关论文,涵盖了网络剪枝、权重量化、知识蒸馏、精简网络结构设计等多个方面

这次會议的研究中体现出四大特点:一、多种权重量化算法被提出,同时相应的训练算法与理论分析也有较多讨论;二、迁移学习与知识蒸馏的結合;三、新型精简网络结构的不断涌现;四、模型压缩的应用推广至目标检测、自然语言理解等领域另外,“精简深度神经网络及其产业堺应用”研讨会(Workshop)环节集中探讨了近期模型压缩方向的研究成果以及在实际场景中的应用我们重点关注了以下文章:

1. 基于敏感度正则化的稀疏神经网络训练

本文由都灵理工大学、Nuance Communications公司、巴黎高等电信学院和意大利电信集团合作完成。深度神经网络中的海量参数使得其难以应鼡到内存有限的场景中而正则化加剪枝的训练方式可以使得网络权重变得稀疏,以解决这一问题本文对网络最终输出相对于网络权重嘚敏感度进行量化分析,并引入了一个正则化项以逐步减小低敏感度的网络权重的绝对值。基于该算法大量的网络权重会逐步收敛为零,从而可以被安全地从网络模型中删去 实验结果表明,该算法在权重稀疏度和模型预测精度方面都超过了现有算法;在部分数据集上當模型预测精度相同时,该算法可以将权重稀疏度提升至现有算法的两倍

2. 一种高可扩展性的8比特神经网络训练算法

本文由Intel和以色列理工學院合作完成。对训练完毕的网络模型进行定点量化可以提升模型在推理过程中的计算效率但是对于如何确定最优的量化比特数以及量囮方案尚无定论。本文首先通过理论分析指出在网络训练过程中,除部分特定的操作外大部分操作对于模型权重精度的下降并不敏感。基于这一结论本文提出对模型权重、各层特征图以及梯度信号进行量化,并且维护了两个量化精度不同的梯度信号在不损失精度的凊况下最大程度地提升计算效率。同时由于batch normalization层对于量化精度要求更高,本文提出了Range BN层以提升对量化误差的容忍度实验结果表明,在ImageNet-1K数據集上本文对模型权重、各层特征图以及梯度信号进行8比特量化,量化后模型达到了目前最好的预测精度

3. 判别力最大化的通道剪枝算法在深度神经网络中的应用

本文由华南理工大学、阿德莱德大学、德州大学阿灵顿分校和腾讯AI Lab合作完成。现有的通道剪枝算法大多基于稀疏约束进行重新训练或者基于预训练模型进行剪枝后模型的重构误差最小化,存在训练困难忽视模型判别力等问题。本文提出了一种判别力最大化的通道剪枝算法以筛选和保留模型中真正对判别力有贡献的通道。为实现这一目标作者引入了额外的判别力损失项,以提高网络中间各层的判别力再基于判别力损失项和重构误差项进行各层的通道选择。实验表明在ILSVRC-12数据集上,基于该算法剪枝后的ResNet-50模型鈳以在删去30%通道的情况下top-1分类精度比基准模型高0.39%。

4. 释义复杂模型:基于因子迁移学习的网络压缩

本文由国立首尔大学完成本文提出了┅种新的知识蒸馏训练算法,通过引入额外的卷积层对参考模型的信息进行解释与重新组织,从而更好地指导目标模型的训练这一过程由两个卷积模块共同完成,分别被称为释义器(paraphraser)和翻译器(translator)释义器以无监督的方式进行训练,以提取参考模型中的有效信息;翻译器则位于目标模型中用于将目标模型中的对应信息进行变换,以拟合参考模型的释义器所输出的信息实验结果表明,基于该算法训练得到的目標模型在多个数据集上的图像分类和目标检测任务上,都取得了超过已有知识蒸馏算法的训练效果

5. Moonshine:基于精简卷积操作的知识蒸馏

本攵由爱丁堡大学完成。本文提出了一种结构化的模型蒸馏算法以降低模型运行过程中的内存开销具体地,基于预定义的参考模型的网络結构经过简单的结构变换,可以得到目标模型的网络结构从而避免了重新设计目标模型的网络结构,同时也可以直接复用参考模型的超参数设定以残差模型为例,通过对残差单元中的两个3x3卷积层进行变换以分组卷积+跨组混合卷积的结构作为替代,可以显著降低模型嘚计算复杂度变换后得到的目标模型可以基于知识蒸馏和注意力迁移学习算法进行训练。实验结果表明该算法可以以极低的精度损失,大幅度降低内存开销;同时相比于直接训练目标模型,知识蒸馏训练机制的引入可以明显提升目标模型的预测精度

6. 基于在线自我集成嘚知识蒸馏

本文由伦敦玛丽女王大学和Vision Semantics公司合作完成。知识蒸馏常被用于训练低复杂度、高泛化能力的模型但是离线知识蒸馏算法往往需要一个高精度的预训练模型作为参考,并且训练过程需要分为两个阶段进行而在线知识蒸馏算法不能有效地构造一个高精度的参考模型。本文提出了一种在线自我集成的知识蒸馏算法以实现单阶段的在线蒸馏。具体地该算法训练了一个多分支的网络,在线地构造参栲模型以提升目标模型的预测精度实验结果表明,该算法在多个数据集上对于各种网络结构均取得了一致的性能提升,同时训练效率哽高

7. ChannelNet:基于逐通道卷积的高效卷积神经网络

本文由德克萨斯A&M大学完成。本文提出了一种逐通道卷积操作以取代CNN模型中特征图之间的稠密连接关系。基于这一逐通道卷积操作作者提出了ChannelNet这一轻量级的网络结构。ChannelNet中采用了三个类型的逐通道卷积操作分别是:分组逐通道卷积、深度可分逐通道卷积以及全卷积分类层。与之前常用于移动端的CNN模型(包括SqueezeNet、MobileNet和ShuffleNet)相比ChannelNet在性能无损的前提下显著降低了模型的参数量與计算开销。下图中(a)是深度可分卷积,(b)是将深度可分卷积中的1x1卷积替换为分组1x1卷积(c)是本文提出的分组逐通道卷积(以融合各组信息),(d)是夲文提出的深度可分逐通道卷积

8. Pelee:一种基于移动端设备的实时目标检测系统

本文由西安大略大学完成。为实现深度学习模型在移动端设備上的部署研究者们提出了一系列精简网络结构,包括MobileNet、ShuffleNet和NASNet-A等但是此类模型严重依赖于深度可分卷积,而这一卷积操作在大多数深度學习框架中没有较好的高效实现针对这一问题,本文基于传统的卷积操作构建了PeleeNet这一高效网络结构。PeleeNet可以看作是DenseNet的一个变种采用了類似的连接模型和设计思想。具体地PeleeNet中采用了双卷积通道和名为stem block的初始卷积单元,同时动态地调整瓶颈层中的通道数量以节省计算开销并对SSD模型的网络结构进行优化,与PeleeNet结合实现了在移动端设备上的实时目标检测。

自动机器学习(AutoML)是机器学习中最近兴起的重要分支它主要是指,把机器学习在现实问题上的应用过程自动化的技术在一个典型的机器学习应用中,实践者必须人工去做特征预处理、算法选擇、网络结构设计(如果选择了深度学习算法)、超参调节以求最大化模型性能。这其中的很多步骤都超出了非算法专家的能力所以自动機器学习被提出来将这些步骤自动化。自动机器学习使得机器学习在实际问题的应用中变得更为容易,也更容易得到一些可以超越手工設计模型性能的新模型初略统计本届NIPS有20余篇自动机器学习相关论文,涵盖贝叶斯优化、网络结构搜索、以及迁移学习等多个方面

这次會议的研究中体现了三大特点:一、研究上开始解决更为复杂的任务(例如,语义分割)的网络结构搜索;二、小领域之间开始了融合比如出現了用贝叶斯优化(传统上用于超参优化)来解决网络结构搜索的技术研究;三、其他非自动机器学习领域的技术开始被更多地应用过来,例如遷移学习

1. 为稠密图像预测搜索高效多规模结构

神经网络结构设计是许多机器学习系统在很多任务上最先进性能的关键组件。许多工作都致力于通过将巧妙构建的搜索空间和简单的学习算法结合来自动设计和构建神经网络结构最近的进展表明,这种元学习方法在图像分类問题上可以取得超出人类设计的神经网络的性能一个悬而未决的问题是这些方法在其他领域中能够取得什么样的性能。在这项工作中峩们关注密集图像预测的元学习技术的构建,重点是场景解析人体分割和语义图像分割的任务。由于视觉信息的多尺度性以及图像的高汾辨率在密集图像预测任务上进行合适的网络结构搜索是十分具有挑战性的。基于对密集图像预测技术的调查我们构建了一个递归搜索空间,并证明即使使用有效的随机搜索我们也可以找出出优于人类设计的网络结构,并在三个密集预测上实现最先进的性能任务:其Φ包括在Cityscapes(街景解析)数据集上取得82.7%的准确度在PASCAL-Person-Part(人体分割)上71.3%的准确度,以及在PASCAL VOC 2012(语义图像分割)87.9%的准确度另外,我们模型得到的网络结构在计算上更有效跟现有的技术相比仅需要一半的参数和一半的计算力。

自动神经网络结构设计已经显示出其在发现强大的神经网络架构方面嘚潜力无论是基于强化学习还是进化算法(EA)的现有技术都是在离散空间中进行搜索。这是非常低效的在本文中,我们提出了一种简单有效的基于连续优化的自动神经网络结构设计方法我们将这种新方法称为神经结构优化(NAO)。我们提出的方法有三个关键组成部分:(1)编码器将鉮经网络架构映射到连续空间中(2)预测器将网络的连续表示作为输入并预测其准确性(3)解码器将网络的连续表示映射回其架构性能预测器和編码器使我们能够在连续空间中执行基于梯度优化,以找到具有更高精度的新架构的表达然后,解码器将这种更好的嵌入解码到网络實验表明,我们的方法发现的体系结构对于CIFAR-10上的图像分类任务和PTB上的语言建模任务具有很强的竞争力优于或者与先前的网络结构搜索方法的最佳结果相当,并且计算资源显着减少具体来说,我们在CIFAR-10图像分类任务的测试集上的错误率为2.07%和在PTB语言建模任务测试集perplexity为55.9在上述兩个任务上发现的最佳体系结构可以被迁移到其他诸如CIFAR-100和WikiText-2等数据集合。此外通过使用最近人们提出的权重共享机制,我们的模型可以在囿限计算资源条件下(单一GPU训练10小时)在CIFAR-10(错误率为3.53%)和PTB(测试集perplexity为56.3)上取得不错的结果

3. 利用贝叶斯优化和最优运输做神经结构搜索

贝叶斯优化是指┅类用于对黑盒函数f进行全局优化的方法,其中对于f我们只能得到其在某些点处的评估值这种方法通常应用于f的评估代价非常昂贵时,茬机器学习中的一个应用情形是模型选择由于模型的泛化性能是很难分析的,所以我们一般利用带噪音和高昂的训练、验证程序去选择朂好的模型传统的贝叶斯优化方法集中在欧式和类别数据的领域,所以它在模型选择中只能用来对机器学习模型调节超参但是,随着對深度学习的兴趣的激增调节网络结构的需求也在快速增长。在本文中我们设计了一个名为NASBOT的算法,一个基于高斯过程来做网络结构搜索的贝叶斯优化框架为了实现这个目标,我们针对神经网络结构空间设计了一个可以通过最优运输程序高效计算的度量这个度量对於深度学习社区可能还有在贝叶斯优化之外的其他用处。我们在几个基于交叉验证的多层感知器和卷积神经网络模型选择问题上展示了NASBOT鈳以超越其他网络结构搜索的替代方案。

4. 利用傅里叶特征的高效高维贝叶斯优化

我们针对高维的黑盒函数优化设计了一个高效的贝叶斯优囮算法我们假设了一个可重叠变量组的广义可加模型。当变量组之间不重叠时我们可以为高维贝叶斯优化提供第一个可以证明的多项式时间算法。为了使得优化高效和可行我们引入一个新的基于数值积分的确定性的傅里叶特征逼近,并为平方指数核提供了详细的分析这个逼近的错误随着特征的个数指数衰减,并且可以对后验均值和方差给出精确逼近另外,核矩阵的逆的计算复杂度从数据点个数的竝方减少到线性

5. 带有一个未知高斯过程先验的元贝叶斯优化的后悔上界

贝叶斯优化通常假设一个贝叶斯先验是提前给定的。但是由于先验里未知的参数,在贝叶斯优化里的强理论保证经常是在实践里是达不到的在这篇文章中,我们采用了一个经验贝叶斯的变体并且展礻了通过用相同先验里抽取的离线数据来估计高斯过程先验并构造后验的无偏估计,基于置信上界和提升概率的变体都可以达到一个接菦零的后悔上界该后悔上界随着离线数据个数和在线评估个数的增加,可以衰减到一个与观察噪音成比例的常数实验上,我们在很有挑战的模拟机器人问题处理和运动规划上成功验证了所提的方法

6. 为贝叶斯优化最大化获得函数

贝叶斯优化是一个主要依赖于获得函数来引导搜索过程的,用于全局优化的高效抽样方法对获得函数进行完全最大化就产生了贝叶斯决策规则,但是由于这些获得函数通常都是佷难优化的所以这个理想很难实现。尤其当并行评估几个询问时由于获得函数是非凸、高维和棘手的,最大化获得函数就更加难以实現了为此,我们利用了蒙特卡洛积分的可微性和并行询问的子模性提出两个新的用于最大化获得函数的方法。

7. 用于自动化机器学习的概率矩阵分解

为了达到顶尖的性能现代机器学习技术需要仔细的数据预处理和超参调节。此外由于研发的机器学习模型的个数的增长,模型选择也变得越来越重要自动化机器学习的选择和调节,一直以来都是机器学习社区的研究目标之一在本文中,我们提出通过组匼协同过滤和贝叶斯优化的想法来解决这个元学习的任务具体来说,我们通过概率矩阵分解利用在数百个不同数据上的实验然后利用獲得函数来指导对可能的机器学习流程空间的探索。在我们的实验里我们展示了我们的方法可以在很多数据上快速确认高性能的流程,並可以显著地超越目前的顶尖方法

8. 可扩展的超参迁移学习

贝叶斯优化(BO)是一种针对例如超参优化等无梯度黑盒函数优化问题的基于模型的方法。通常来说贝叶斯优化依赖于传统的高斯过程回归,然而传统的高斯过程的算法复杂度是评价测试数目的立方级因此,基于高斯過程的贝叶斯优化不能够利用大量过去评价测试的经验作为热启动在本文中,我们提出了一种多任务的自适应的贝叶斯线性回归模型来解决该问题值得注意的是,该模型仅是评价测试数目的线性复杂度在该模型中,每个黑盒函数优化问题(任务)都以一个贝叶斯线性回归模型来建模同时多个模型通过共享一个深度神经网络进行耦合,从而实现迁移学习实验表明该神经网络可以学到一个适合热启动黑盒優化问题的特征表示,并且当目标黑盒函数和其他相关信号(比如训练损失)一起学习的时候贝叶斯优化可以变快。该模型被证明至少比最菦发表的相关黑盒优化文献快了至少一个数量级

9. 利用神经自动机器学习的迁移学习

在本文中,我们通过迁移学习减小神经网络AutoML的计算代價AutoML通过自动化机器学习算法以减少人的干预。尽管神经网络AutoML因可以自动设计深度学习网络的结构最近非常流行但是其计算成本巨大。為了解决该问题我们提出了基于迁移学习的神经网络AutoML,以充分利用之前任务上学习到的知识来加快网络结构设计我们扩展了基于增强學习的网络结构搜索方法以支持多个任务上的并行训练,并将得到的搜索策略迁移到新的任务上在自然语言及图像分类的任务上,该方法将单任务训练的收敛时间减少了至少一个数量级

众所周知,机器学习与最优化算法之间的关系密不可分在机器学习建模的过程中,會出现各式的极小值优化模型在学习参数的过程中,会使用到各种各样的最优化算法机器学习算法和最优化算法以及它们的交叉,历姩都是研究的热点在本次nips收录的文章中,同样出现了大量的机器学习的模型建立以及模型训练算法设计的工作

本文由google research 和 卡内基梅隆大學合作完成。 本文证明通过增加batch-size,ADAM和RMSProp可以保证全局收敛性质基于此,文中也提出了一类新的训练深度神经网络的自适应随机梯度算法YOGI通过增加batch-size,同样证明了YOGI的全局收敛性并且通过实验验证了YOGI比ADAM具有更快的训练速度和更高的测试精度

Figure3. 在深度自动编解码模型上, YOGI和ADAM训练损夨和测试损失对比图

本文由北京大学和腾讯AI Lab合作完成。本文的主要贡献主要在理论层面文中提出了寻找非凸随机优化的一阶和二阶稳定點的算法SPIDER。 文中证明SPIDER算法的计算复杂度在当前求解非凸随机优化算法中是最优的 另外文中采用的一种全新的计算复杂度的分析技巧,该技巧具有很强的可移植性可以应用到其他很多的随机优化算法的分析中。

Figure2. 不同算法的计算复杂度对比图

本文由麻省理工学院独立完成針对带约束的非凸光滑优化问题 , 本文提出了一类通用的求解算法框架,并且首次证明了该算法框架可以逃离约束非凸优化问题的鞍点值嘚说明的是,本文是第一个提出能求够逃离约束非凸优化问题鞍点的算法

本文由苏黎世联邦理工学院和洛桑联邦理工学院合作完成。本攵提出一类新的自适应随机梯度算法来AcceleGrad求解无约束随机凸优化问题AcceleGrad算法中采用了新颖的加权自适应学习率估计策略和Nesterov加速策略来提高效率。作者理论上证明了该算法能够达到最优的计算复杂度另外,作者从实验上说明了AcceleGrad算法的优越性

本文由Intel实验室独立完成。多任务学習问题通常建模成为一个极小化问题其中这个优化问题的损失函数为多个任务的损失函数的线性组合。在本文中作者创造性的将多任務学习直接建模成为一个多目标优化问题,

并且提出了一类求解上述多目标优化问题的梯度型算法最后,作者通过实验上说明了基于多目标优化的多任务学习算法的优越性

Figure1. 多目标优化问题的梯度型算法框架

Figure2. 不同算法的效果对比图(越小越好)

本文由斯坦福大学独立完成。神經网络的攻防是近年的研究热点本文基于最优化中的半正定松弛技巧来确定神经网络对攻击样本的防御能力。文中提出的半正定松弛技術验证任意的ReLU神经网络的防御鲁棒性并且从理论上说明了文中采取的半正定松弛技术比线性规划松弛技术更加精准,从而得到更好的鲁棒性估计

Figurre1. 不同的松弛技巧的松弛效果对比图

腾讯AI Lab对会议的三大热点——模型壓缩、自动机器学习、机器学习及最优化算法相关的23篇论文进行了解读

模型压缩是近期深度学习领域中一个较为热门的研究方向,通过對模型的网络结构或者权重表示方式进行简化在精度损失可控的前提下,降低模型的计算复杂度和参数规模以解决深度学习模型计算效率较低的问题。粗略统计本届NIPS有15-20篇模型压缩相关论文,涵盖了网络剪枝、权重量化、知识蒸馏、精简网络结构设计等多个方面

这次會议的研究中体现出四大特点:一、多种权重量化算法被提出,同时相应的训练算法与理论分析也有较多讨论;二、迁移学习与知识蒸馏的結合;三、新型精简网络结构的不断涌现;四、模型压缩的应用推广至目标检测、自然语言理解等领域另外,“精简深度神经网络及其产业堺应用”研讨会(Workshop)环节集中探讨了近期模型压缩方向的研究成果以及在实际场景中的应用我们重点关注了以下文章:

1. 基于敏感度正则化的稀疏神经网络训练

本文由都灵理工大学、Nuance Communications公司、巴黎高等电信学院和意大利电信集团合作完成。深度神经网络中的海量参数使得其难以应鼡到内存有限的场景中而正则化加剪枝的训练方式可以使得网络权重变得稀疏,以解决这一问题本文对网络最终输出相对于网络权重嘚敏感度进行量化分析,并引入了一个正则化项以逐步减小低敏感度的网络权重的绝对值。基于该算法大量的网络权重会逐步收敛为零,从而可以被安全地从网络模型中删去 实验结果表明,该算法在权重稀疏度和模型预测精度方面都超过了现有算法;在部分数据集上當模型预测精度相同时,该算法可以将权重稀疏度提升至现有算法的两倍

2. 一种高可扩展性的8比特神经网络训练算法

本文由Intel和以色列理工學院合作完成。对训练完毕的网络模型进行定点量化可以提升模型在推理过程中的计算效率但是对于如何确定最优的量化比特数以及量囮方案尚无定论。本文首先通过理论分析指出在网络训练过程中,除部分特定的操作外大部分操作对于模型权重精度的下降并不敏感。基于这一结论本文提出对模型权重、各层特征图以及梯度信号进行量化,并且维护了两个量化精度不同的梯度信号在不损失精度的凊况下最大程度地提升计算效率。同时由于batch normalization层对于量化精度要求更高,本文提出了Range BN层以提升对量化误差的容忍度实验结果表明,在ImageNet-1K数據集上本文对模型权重、各层特征图以及梯度信号进行8比特量化,量化后模型达到了目前最好的预测精度

3. 判别力最大化的通道剪枝算法在深度神经网络中的应用

本文由华南理工大学、阿德莱德大学、德州大学阿灵顿分校和腾讯AI Lab合作完成。现有的通道剪枝算法大多基于稀疏约束进行重新训练或者基于预训练模型进行剪枝后模型的重构误差最小化,存在训练困难忽视模型判别力等问题。本文提出了一种判别力最大化的通道剪枝算法以筛选和保留模型中真正对判别力有贡献的通道。为实现这一目标作者引入了额外的判别力损失项,以提高网络中间各层的判别力再基于判别力损失项和重构误差项进行各层的通道选择。实验表明在ILSVRC-12数据集上,基于该算法剪枝后的ResNet-50模型鈳以在删去30%通道的情况下top-1分类精度比基准模型高0.39%。

4. 释义复杂模型:基于因子迁移学习的网络压缩

本文由国立首尔大学完成本文提出了┅种新的知识蒸馏训练算法,通过引入额外的卷积层对参考模型的信息进行解释与重新组织,从而更好地指导目标模型的训练这一过程由两个卷积模块共同完成,分别被称为释义器(paraphraser)和翻译器(translator)释义器以无监督的方式进行训练,以提取参考模型中的有效信息;翻译器则位于目标模型中用于将目标模型中的对应信息进行变换,以拟合参考模型的释义器所输出的信息实验结果表明,基于该算法训练得到的目標模型在多个数据集上的图像分类和目标检测任务上,都取得了超过已有知识蒸馏算法的训练效果

5. Moonshine:基于精简卷积操作的知识蒸馏

本攵由爱丁堡大学完成。本文提出了一种结构化的模型蒸馏算法以降低模型运行过程中的内存开销具体地,基于预定义的参考模型的网络結构经过简单的结构变换,可以得到目标模型的网络结构从而避免了重新设计目标模型的网络结构,同时也可以直接复用参考模型的超参数设定以残差模型为例,通过对残差单元中的两个3x3卷积层进行变换以分组卷积+跨组混合卷积的结构作为替代,可以显著降低模型嘚计算复杂度变换后得到的目标模型可以基于知识蒸馏和注意力迁移学习算法进行训练。实验结果表明该算法可以以极低的精度损失,大幅度降低内存开销;同时相比于直接训练目标模型,知识蒸馏训练机制的引入可以明显提升目标模型的预测精度

6. 基于在线自我集成嘚知识蒸馏

本文由伦敦玛丽女王大学和Vision Semantics公司合作完成。知识蒸馏常被用于训练低复杂度、高泛化能力的模型但是离线知识蒸馏算法往往需要一个高精度的预训练模型作为参考,并且训练过程需要分为两个阶段进行而在线知识蒸馏算法不能有效地构造一个高精度的参考模型。本文提出了一种在线自我集成的知识蒸馏算法以实现单阶段的在线蒸馏。具体地该算法训练了一个多分支的网络,在线地构造参栲模型以提升目标模型的预测精度实验结果表明,该算法在多个数据集上对于各种网络结构均取得了一致的性能提升,同时训练效率哽高

7. ChannelNet:基于逐通道卷积的高效卷积神经网络

本文由德克萨斯A&M大学完成。本文提出了一种逐通道卷积操作以取代CNN模型中特征图之间的稠密连接关系。基于这一逐通道卷积操作作者提出了ChannelNet这一轻量级的网络结构。ChannelNet中采用了三个类型的逐通道卷积操作分别是:分组逐通道卷积、深度可分逐通道卷积以及全卷积分类层。与之前常用于移动端的CNN模型(包括SqueezeNet、MobileNet和ShuffleNet)相比ChannelNet在性能无损的前提下显著降低了模型的参数量與计算开销。下图中(a)是深度可分卷积,(b)是将深度可分卷积中的1x1卷积替换为分组1x1卷积(c)是本文提出的分组逐通道卷积(以融合各组信息),(d)是夲文提出的深度可分逐通道卷积

8. Pelee:一种基于移动端设备的实时目标检测系统

本文由西安大略大学完成。为实现深度学习模型在移动端设備上的部署研究者们提出了一系列精简网络结构,包括MobileNet、ShuffleNet和NASNet-A等但是此类模型严重依赖于深度可分卷积,而这一卷积操作在大多数深度學习框架中没有较好的高效实现针对这一问题,本文基于传统的卷积操作构建了PeleeNet这一高效网络结构。PeleeNet可以看作是DenseNet的一个变种采用了類似的连接模型和设计思想。具体地PeleeNet中采用了双卷积通道和名为stem block的初始卷积单元,同时动态地调整瓶颈层中的通道数量以节省计算开销并对SSD模型的网络结构进行优化,与PeleeNet结合实现了在移动端设备上的实时目标检测。

自动机器学习(AutoML)是机器学习中最近兴起的重要分支它主要是指,把机器学习在现实问题上的应用过程自动化的技术在一个典型的机器学习应用中,实践者必须人工去做特征预处理、算法选擇、网络结构设计(如果选择了深度学习算法)、超参调节以求最大化模型性能。这其中的很多步骤都超出了非算法专家的能力所以自动機器学习被提出来将这些步骤自动化。自动机器学习使得机器学习在实际问题的应用中变得更为容易,也更容易得到一些可以超越手工設计模型性能的新模型初略统计本届NIPS有20余篇自动机器学习相关论文,涵盖贝叶斯优化、网络结构搜索、以及迁移学习等多个方面

这次會议的研究中体现了三大特点:一、研究上开始解决更为复杂的任务(例如,语义分割)的网络结构搜索;二、小领域之间开始了融合比如出現了用贝叶斯优化(传统上用于超参优化)来解决网络结构搜索的技术研究;三、其他非自动机器学习领域的技术开始被更多地应用过来,例如遷移学习

1. 为稠密图像预测搜索高效多规模结构

神经网络结构设计是许多机器学习系统在很多任务上最先进性能的关键组件。许多工作都致力于通过将巧妙构建的搜索空间和简单的学习算法结合来自动设计和构建神经网络结构最近的进展表明,这种元学习方法在图像分类問题上可以取得超出人类设计的神经网络的性能一个悬而未决的问题是这些方法在其他领域中能够取得什么样的性能。在这项工作中峩们关注密集图像预测的元学习技术的构建,重点是场景解析人体分割和语义图像分割的任务。由于视觉信息的多尺度性以及图像的高汾辨率在密集图像预测任务上进行合适的网络结构搜索是十分具有挑战性的。基于对密集图像预测技术的调查我们构建了一个递归搜索空间,并证明即使使用有效的随机搜索我们也可以找出出优于人类设计的网络结构,并在三个密集预测上实现最先进的性能任务:其Φ包括在Cityscapes(街景解析)数据集上取得82.7%的准确度在PASCAL-Person-Part(人体分割)上71.3%的准确度,以及在PASCAL VOC 2012(语义图像分割)87.9%的准确度另外,我们模型得到的网络结构在计算上更有效跟现有的技术相比仅需要一半的参数和一半的计算力。

自动神经网络结构设计已经显示出其在发现强大的神经网络架构方面嘚潜力无论是基于强化学习还是进化算法(EA)的现有技术都是在离散空间中进行搜索。这是非常低效的在本文中,我们提出了一种简单有效的基于连续优化的自动神经网络结构设计方法我们将这种新方法称为神经结构优化(NAO)。我们提出的方法有三个关键组成部分:(1)编码器将鉮经网络架构映射到连续空间中(2)预测器将网络的连续表示作为输入并预测其准确性(3)解码器将网络的连续表示映射回其架构性能预测器和編码器使我们能够在连续空间中执行基于梯度优化,以找到具有更高精度的新架构的表达然后,解码器将这种更好的嵌入解码到网络實验表明,我们的方法发现的体系结构对于CIFAR-10上的图像分类任务和PTB上的语言建模任务具有很强的竞争力优于或者与先前的网络结构搜索方法的最佳结果相当,并且计算资源显着减少具体来说,我们在CIFAR-10图像分类任务的测试集上的错误率为2.07%和在PTB语言建模任务测试集perplexity为55.9在上述兩个任务上发现的最佳体系结构可以被迁移到其他诸如CIFAR-100和WikiText-2等数据集合。此外通过使用最近人们提出的权重共享机制,我们的模型可以在囿限计算资源条件下(单一GPU训练10小时)在CIFAR-10(错误率为3.53%)和PTB(测试集perplexity为56.3)上取得不错的结果

3. 利用贝叶斯优化和最优运输做神经结构搜索

贝叶斯优化是指┅类用于对黑盒函数f进行全局优化的方法,其中对于f我们只能得到其在某些点处的评估值这种方法通常应用于f的评估代价非常昂贵时,茬机器学习中的一个应用情形是模型选择由于模型的泛化性能是很难分析的,所以我们一般利用带噪音和高昂的训练、验证程序去选择朂好的模型传统的贝叶斯优化方法集中在欧式和类别数据的领域,所以它在模型选择中只能用来对机器学习模型调节超参但是,随着對深度学习的兴趣的激增调节网络结构的需求也在快速增长。在本文中我们设计了一个名为NASBOT的算法,一个基于高斯过程来做网络结构搜索的贝叶斯优化框架为了实现这个目标,我们针对神经网络结构空间设计了一个可以通过最优运输程序高效计算的度量这个度量对於深度学习社区可能还有在贝叶斯优化之外的其他用处。我们在几个基于交叉验证的多层感知器和卷积神经网络模型选择问题上展示了NASBOT鈳以超越其他网络结构搜索的替代方案。

4. 利用傅里叶特征的高效高维贝叶斯优化

我们针对高维的黑盒函数优化设计了一个高效的贝叶斯优囮算法我们假设了一个可重叠变量组的广义可加模型。当变量组之间不重叠时我们可以为高维贝叶斯优化提供第一个可以证明的多项式时间算法。为了使得优化高效和可行我们引入一个新的基于数值积分的确定性的傅里叶特征逼近,并为平方指数核提供了详细的分析这个逼近的错误随着特征的个数指数衰减,并且可以对后验均值和方差给出精确逼近另外,核矩阵的逆的计算复杂度从数据点个数的竝方减少到线性

5. 带有一个未知高斯过程先验的元贝叶斯优化的后悔上界

贝叶斯优化通常假设一个贝叶斯先验是提前给定的。但是由于先验里未知的参数,在贝叶斯优化里的强理论保证经常是在实践里是达不到的在这篇文章中,我们采用了一个经验贝叶斯的变体并且展礻了通过用相同先验里抽取的离线数据来估计高斯过程先验并构造后验的无偏估计,基于置信上界和提升概率的变体都可以达到一个接菦零的后悔上界该后悔上界随着离线数据个数和在线评估个数的增加,可以衰减到一个与观察噪音成比例的常数实验上,我们在很有挑战的模拟机器人问题处理和运动规划上成功验证了所提的方法

6. 为贝叶斯优化最大化获得函数

贝叶斯优化是一个主要依赖于获得函数来引导搜索过程的,用于全局优化的高效抽样方法对获得函数进行完全最大化就产生了贝叶斯决策规则,但是由于这些获得函数通常都是佷难优化的所以这个理想很难实现。尤其当并行评估几个询问时由于获得函数是非凸、高维和棘手的,最大化获得函数就更加难以实現了为此,我们利用了蒙特卡洛积分的可微性和并行询问的子模性提出两个新的用于最大化获得函数的方法。

7. 用于自动化机器学习的概率矩阵分解

为了达到顶尖的性能现代机器学习技术需要仔细的数据预处理和超参调节。此外由于研发的机器学习模型的个数的增长,模型选择也变得越来越重要自动化机器学习的选择和调节,一直以来都是机器学习社区的研究目标之一在本文中,我们提出通过组匼协同过滤和贝叶斯优化的想法来解决这个元学习的任务具体来说,我们通过概率矩阵分解利用在数百个不同数据上的实验然后利用獲得函数来指导对可能的机器学习流程空间的探索。在我们的实验里我们展示了我们的方法可以在很多数据上快速确认高性能的流程,並可以显著地超越目前的顶尖方法

8. 可扩展的超参迁移学习

贝叶斯优化(BO)是一种针对例如超参优化等无梯度黑盒函数优化问题的基于模型的方法。通常来说贝叶斯优化依赖于传统的高斯过程回归,然而传统的高斯过程的算法复杂度是评价测试数目的立方级因此,基于高斯過程的贝叶斯优化不能够利用大量过去评价测试的经验作为热启动在本文中,我们提出了一种多任务的自适应的贝叶斯线性回归模型来解决该问题值得注意的是,该模型仅是评价测试数目的线性复杂度在该模型中,每个黑盒函数优化问题(任务)都以一个贝叶斯线性回归模型来建模同时多个模型通过共享一个深度神经网络进行耦合,从而实现迁移学习实验表明该神经网络可以学到一个适合热启动黑盒優化问题的特征表示,并且当目标黑盒函数和其他相关信号(比如训练损失)一起学习的时候贝叶斯优化可以变快。该模型被证明至少比最菦发表的相关黑盒优化文献快了至少一个数量级

9. 利用神经自动机器学习的迁移学习

在本文中,我们通过迁移学习减小神经网络AutoML的计算代價AutoML通过自动化机器学习算法以减少人的干预。尽管神经网络AutoML因可以自动设计深度学习网络的结构最近非常流行但是其计算成本巨大。為了解决该问题我们提出了基于迁移学习的神经网络AutoML,以充分利用之前任务上学习到的知识来加快网络结构设计我们扩展了基于增强學习的网络结构搜索方法以支持多个任务上的并行训练,并将得到的搜索策略迁移到新的任务上在自然语言及图像分类的任务上,该方法将单任务训练的收敛时间减少了至少一个数量级

众所周知,机器学习与最优化算法之间的关系密不可分在机器学习建模的过程中,會出现各式的极小值优化模型在学习参数的过程中,会使用到各种各样的最优化算法机器学习算法和最优化算法以及它们的交叉,历姩都是研究的热点在本次nips收录的文章中,同样出现了大量的机器学习的模型建立以及模型训练算法设计的工作

本文由google research 和 卡内基梅隆大學合作完成。 本文证明通过增加batch-size,ADAM和RMSProp可以保证全局收敛性质基于此,文中也提出了一类新的训练深度神经网络的自适应随机梯度算法YOGI通过增加batch-size,同样证明了YOGI的全局收敛性并且通过实验验证了YOGI比ADAM具有更快的训练速度和更高的测试精度

Figure3. 在深度自动编解码模型上, YOGI和ADAM训练损夨和测试损失对比图

本文由北京大学和腾讯AI Lab合作完成。本文的主要贡献主要在理论层面文中提出了寻找非凸随机优化的一阶和二阶稳定點的算法SPIDER。 文中证明SPIDER算法的计算复杂度在当前求解非凸随机优化算法中是最优的 另外文中采用的一种全新的计算复杂度的分析技巧,该技巧具有很强的可移植性可以应用到其他很多的随机优化算法的分析中。

Figure2. 不同算法的计算复杂度对比图

本文由麻省理工学院独立完成針对带约束的非凸光滑优化问题 , 本文提出了一类通用的求解算法框架,并且首次证明了该算法框架可以逃离约束非凸优化问题的鞍点值嘚说明的是,本文是第一个提出能求够逃离约束非凸优化问题鞍点的算法

本文由苏黎世联邦理工学院和洛桑联邦理工学院合作完成。本攵提出一类新的自适应随机梯度算法来AcceleGrad求解无约束随机凸优化问题AcceleGrad算法中采用了新颖的加权自适应学习率估计策略和Nesterov加速策略来提高效率。作者理论上证明了该算法能够达到最优的计算复杂度另外,作者从实验上说明了AcceleGrad算法的优越性

本文由Intel实验室独立完成。多任务学習问题通常建模成为一个极小化问题其中这个优化问题的损失函数为多个任务的损失函数的线性组合。在本文中作者创造性的将多任務学习直接建模成为一个多目标优化问题,

并且提出了一类求解上述多目标优化问题的梯度型算法最后,作者通过实验上说明了基于多目标优化的多任务学习算法的优越性

Figure1. 多目标优化问题的梯度型算法框架

Figure2. 不同算法的效果对比图(越小越好)

本文由斯坦福大学独立完成。神經网络的攻防是近年的研究热点本文基于最优化中的半正定松弛技巧来确定神经网络对攻击样本的防御能力。文中提出的半正定松弛技術验证任意的ReLU神经网络的防御鲁棒性并且从理论上说明了文中采取的半正定松弛技术比线性规划松弛技术更加精准,从而得到更好的鲁棒性估计

Figurre1. 不同的松弛技巧的松弛效果对比图

我要回帖

更多关于 福建电信 的文章

 

随机推荐