怎么理解在模型中使用L1+L2l1正则化与l2正则化

点击率预估的几个经典模型简介 - 今日头条()
点击率预估是大数据技术应用的最经典问题之一,在计算广告,推荐系统,金融征信等等很多领域拥有广泛的应用。本文不打算对这个话题做个全面叙述,一方面这过于庞大,另一方面也已经有很多文章和演讲材料相当不错。本文只打算对已有的一些文字作个补充,从贴近实际的角度列举一些经过商业检验的点击率模型。最经典的模型当然是逻辑回归,这是绝大多数商业公司的选择,简单的逻辑回归有实现容易,训练快速等优点。自从逻辑回归出现后,针对它的改进主要围绕两方面:如何正则化;如何最优化。正则化是机器学习的重要技术,它的主要目的是让防止模型过拟合,目前比较常用的正则化有L1和L2。通常L2在减少预测错误上表现更好,这是因为当两个特征相关时,L1会只选择一个,而让另外一个系数为0,因此可以产生稀疏解;而L2则会同时保留2个特征然后另它们的权重系数收缩。因此在数据维度有限时,L2会既有防止过拟合的优点,还不会导致模型预测损失。然而对于大规模机器学习框架,L1的稀疏解会更有吸引力,加入L1正则化的损失函数在优化后,绝大多数特征的权重都是0。这个特性可以大大减少点击率预估时的内存占用,并提高预测的速度。关于最优化,因为逻辑回归的损失函数是一个可以求导的凸函数,所以通常可以采用梯度下降或者拟牛顿进行最优化。不论是梯度下降,还是拟牛顿,都是频率派的最优化手段,贝叶斯学派也有自己的手段,这就是微软的AdPredictor提出的Bayesian Probit Regression[3]。AdPredictor有一些比较好的特性:它只需要一次迭代就可以收敛到最优解,而不是像梯度法或者拟牛顿法那样需要反复迭代;它不仅能预测出一个样本是正样本的概率,而且还可以给出对于这个概率预测值的置信度,因此很多在线广告公司都采用AdPredictor作为其点击率预估的方法。由于AdPredictor假设特征权重的先验分布遵循高斯分布,因此它相当于是L2正则化,这在许多大规模场景下难以接受,因此Google在13年发表的FTRL-Proximal提供了既是L1正则化,又具备AdPredictor优点的方案,FTRL-Proximal公式较多,读者可以从[7]获得更完整的叙述。另一方面,回到模型本身,采用简单的线性模型会导致其他一些问题,比如高维场景下,究竟应当如何选择特征,大部分公司以来人工特征工程,随着过程深入,这种方式的收益会逐步达到上限。此外,简单线性模型无法捕捉特征之间的关联,这对于提升长尾用户行为的点击率尤其关键。有一些公司在这些方面也做了不少工作。首先比较重要的是Facebook的工作[4],它的主要贡献在于通过利用非线性模型GBDT来进行特征选择,GBDT的输出作为线性模型逻辑回归的输入,通过这样的级联产生了明显的提升。这种手段应当可以作为新一代点击率预估系统的标准配置。关于特征关联发现,先来看看排名第一的重定向广告公司Criteo的工作,在其点击率方案中[5]直接利用x_u*M*x_a来修正sigmoid函数,其中M为一个矩阵,x_u和x_a分别代表用户和广告特征,因此矩阵的大小取决于用户和广告特征的基数。通常,这两个数字都会很大,因此矩阵就会变得非常很大和稀疏,Criteo主要是借助于特征Hashing来减少矩阵尺寸,但这会导致冲突情况下无法判断是哪些特征组合信号强的问题。再来看看Linkedin的LASER系统,由于LASER的作者源自Yahoo内容优化和推荐引擎团队,因此我们可以认为LASER跟Yahoo的工作如出一辙。LASER点击率预估系统建模跟Criteo类似,都很简单直接,但是引入了上下文信息和更多特征。Y_ijt表示用户i对于广告j在上下文t下是否会点击。相比传统的逻辑回归只用简单的单一种类特征,LASER同时引入了用户特征x_i,广告特征c_j,以及上下文特征z_t,并且还要考虑这些特征之间的相互关联信息。这种建模的思路是解决冷启动问题的有效方式,因为这意味着即便没有很多的用户行为数据,也可以根据特征之间的关联信息作出不算太离谱的预测,当然,如果能够有用户行为数据,则可以锦上添花,为此,LASER把传统逻辑回归的Logit对数差异函数s_ijt分成图中所示的三个组成部分:第一个部分表达了概率密度跟所有一阶特征的关系;第二部分表达了概率密度跟所有特征之间关联程度的关系,包括用户特征和广告特征之间,广告特征和上下文特征之间,以及用户特征和上下文特征之间三种关联,因此称为二阶特征。整个模型如果光有这部分数据,也能够做出比较靠谱的预测,因此把这两部份加起来称作冷启动。相比之下,第三部分称作为热启动,用来表示用户当前对于冷启动选择出的Top K广告的偏好转移,为便于快速实时计算,这部分只包含广告和上下文的一阶特征。可以看到,冷启动部分是LASER的主要工作,为训练这部分模型,LASER采用了交替方向乘子ADMM算法和L2正则化。ADMM是一种求解优化问题的计算框架,适用于求解分布式凸优化问题,ADMM 通过将大的全局问题分解为多个较小、较容易求解的局部子问题,并通过协调子问题的解而得到大的全局问题的解。在高精度要求下,ADMM 的收敛很慢;但在中等精度要求下,ADMM 的收敛速度可以接受(几十次迭代),因此ADMM非常适合大规模机器学习使用。在LASER里,又采用了一些额外优化,比如在不同分区同时进行计算,然后拿各分区的均值作为ADMM初始化参数,并且动态调节各分区计算的步长,这样在实际中把ADMM的迭代次数可以降到更低(如十多次迭代),因此一方面提升了训练性能,另一方面,也让整个冷启动部分的训练可以在一些不适合机器学习的框架如Hadoop上运行良好。在Spark还不稳定的2013年,这样做的价值是显而易见的。在稀疏方面,LASER没有考虑太多,因此大规模特征,比如百万维以上,是不能采用的。再来看看阿里的[2]CGL,意思是Coupled Group Lasso,就是在损失函数中分别用Group Lasso去正则化用户特征和广告特征。在文章前边我们提到逻辑回归正则化主要有L1和L2,其中L1也可叫Lasso,L2也可叫Ridge,除了L1和L2之外,还有一些其他的手段,比如结合L1和L2优点的Elastic Net,而Group Lasso是对Lasso的推广,通过预先定义分组,以组为单位进行变量选择。为了建模特征之间的关联,CGL把普通逻辑回归的sigmoid函数修改为如下:其中x_u和x_a分别代表用户和广告特征,因此x_u*M*x_a就可以表征特征之间的关联,而把矩阵M分解W*V'后就可以转化成图中的形式。采用这种方法改写的原因是避免引入过于庞大的M矩阵,因此模型的参数可以少很多。在解决特征组合的手段中,除了上面提到的针对逻辑回归的工作之外,还有FM(Factorization Machine),FM的建模跟LASER其实有一些类似,看下边公式就知道了,都是把线性关系和特征笛卡尔积共同列出做统一优化,因此也具备特征关联发现功能。在以FM为核心的几个方案赢得一些点击率预估大赛之后,FM已经为更多的公司所接受,从竞赛和学术方案走向商业成熟。前边列举的主要是机器学习手段,而我们知道深度学习系统也能够给点击率预估带来很大收益,百度是这方面的先行者之一,由于相关资料少我们就不单独列举了。由于LASER是笔者团队曾经实现的系统,因此篇幅有些不合时宜得多。关于如何设计一个现代的点击率系统,请诸位参考德川同学撰写的“关于点击率模型,你知道这三点就够了”一文,德川同学采用的GBDT+FM,是经过商业检验的优秀方案,也是非基于深度学习的点击率预估系统的最佳实践之一。参考文献:[1] LASER: A Scalable Response Prediction Platform For Online Advertising, Deepak Agarwal, WSDM 2014[2] Coupled group lasso for web-scale ctr prediction in display advertising, Yan, Ling and Li, Wu-jun and Xue, Gui-Rong and Han, Dingyi, ICML 2014[3] Web-scale bayesian click-through rate prediction for sponsored search advertising in microsoft's bing search engine, Graepel, Thore and Candela, Joaquin Q and Borchert, Thomas and Herbrich, Ralf, ICML 2010[4] Practical lessons from predicting clicks on ads at facebook, He, Xinran and Pan, ADKDD 2014[5] Simple and scalable response prediction for display advertising, Chapelle, Olivier, ACM Transactions on Intelligent Systems and Technology 2014[6] Click-through prediction for advertising in twitter timeline, Li, Cheng and Lu, Yue and Mei, Qiaozhu, SIGKDD 2015[7] 冯扬, 在线最优化求解
what are you 说啥呢
没看完的举手
没看明白的举手
专注数据科学,技术与变现
中关村在线是IT用户优先选择的中文科技门户,是大中华区商业价值受到认可和信赖的IT专业门户网站。
前瞻网,发现趋势 预见未来!
苹果技巧分享,教程发布,关注移动互联网,让科技更好的服务生活。
IT之家,数码、科技、生活。
极客公园-发现产品的价值,极客公园是国内最大的创新者社区
(C) 2016 今日头条 违法和不良信息举报电话:010-公司名称:北京字节跳动科技有限公司logistic模型准确度为多少时可以使用_百度知道
logistic模型准确度为多少时可以使用
提问者采纳
能够大大简化模型和计算svm 更多的属于非参数模型,如l1.这两个损失函数的目的都是增加对分类影响较大的数据点的权重,也就是和分类最相关的少数点,根据需要.而逻辑回归通过非线性映射,好理解,分类只需要计算与少数几个支持向量的距离,实现起来,大大减小了离分类平面较远的点的权重.还有很重要的一点,两种算法的结果是很接近的.logic 能做的 svm能做,去学习分类器,有一套结构化风险最小化的理论基础,而logistic regression 是参数模型,这个在进行复杂核函数计算时优势很明显,特别是大规模线性分类时比较方便,SVM转化为对偶问题后.而SVM的理解和优化相对来说复杂一些,减少与分类关系较小的数据点的权重.但是SVM的理论基础更加牢固两种方法都是常见的分类算法,虽然一般使用的人不太会去关注,l2等等,从目标函数来看.SVM的处理方法是只考虑support vectors,svm采用的是hinge loss,区别在于逻辑回归采用的是logistical loss,相对提升了与分类最相关的数据点的权重.两者的根本目的都是一样的,两个方法都可以增加不同的正则化项.此外.所以在很多实验中,但可能在准确率上有问题.其区别就可以参考参数模型和非参模型的区别就好了,本质不同.但是逻辑回归相对来说模型更简单
其他类似问题
为您推荐:
logistic模型的相关知识
等待您来回答
下载知道APP
随时随地咨询
出门在外也不愁您所在位置: &
&nbsp&&nbsp&nbsp&&nbsp
正则化方法在图像处理中的应用.pdf52页
本文档一共被下载:
次 ,您可全文免费在线阅读后下载本文档。
文档加载中...广告还剩秒
需要金币:200 &&
正则化方法在图像处理中的应用
你可能关注的文档:
··········
··········
中文摘要 中文摘要 图像处理 image processing 是用计算机对图像进行分析,以达到所需结果的
技术.在科学研究、工农业生产、生物医学工程、航空航天、军事、工业检测、机器
人视觉、文化艺术等领域中有广泛的应用.应用的需求以及多学科的交叉,使得该
领域成为了一个研究的热点。本文针对图像压缩和图像恢复过程中的某些数学问题
进行探讨.介绍其数学原理研究其数学方法,并对某些算法进行计算机实现. 本文结构如下: 第一章绪论,本章着重介绍本文的研究背景、国内外研究现状及发展趋势,本
文的研究内容. 第二章基础理论,本章着重对论文所涉及到的理论知识加以介绍,为后续开展
研究提供理论支持。 第三章图像压缩,本章着重介绍用谱截断的正则化方法进行图像压缩,并给出
实验结果. 第四章图像恢复,本章着重介绍图像恢复的方法,并给出了数值算法和实验结
图像压缩;图像恢复;奇异值分解o,正则化方法;不适定问题 黑龙江大学硕士学位论文 Abstract isa of the
with inorder Image technique computers processing analyzingimage
toachievethe results.Itis
usedin fieldsofscience prospective widely many research,
suchasthe of and of produceindustry engineeringbiomedicine, agriculture,the
aviationand of spaceflight,militaryaffairs,industryinspection,visionrobot,police
and andart.Itisthedemandof justice,militaryinstruction,culture application
andthe of field ofresearch.The intercourse thatmakethe a manysubject hotspot aimsatthediscussionofmath.Issueof and
present image paper imagecompressing its ofmath’S
andmath’S
recoveringprocessing,introducingstudy theory method, in somemethod
realizing computers. Our is aSfollows. paperorganized Thefirst isthe thed
正在加载中,请稍后... 上传我的文档
 下载
 收藏
该文档贡献者很忙,什么也没留下。
 下载此文档
正在努力加载中...
L1正则化的Logistic Regression分布式训练方法综述
下载积分:1000
内容提示:L1正则化的Logistic Regression分布式训练方法综述
文档格式:DOC|
浏览次数:319|
上传日期: 23:27:05|
文档星级:
该用户还上传了这些文档
L1正则化的Logistic Regression分布式训练方法综述
官方公共微信&&国之画&&&&&&
版权所有 京ICP备号-2
迷上了代码!

我要回帖

更多关于 l1范数正则化 的文章

 

随机推荐