最大似然算法华为里字母正上方的小尖角，怎么在word里面的式子里打出来？截图为书本里的式子截图。

风水堪舆学 | 网络营销 | 住宅风水 | 英文歌曲 | Adobe After Effects | 电脑配置 | 书籍改编电影 | 下载 | Legion | 网络推广 | 动画制作 | 赛事 | PLC | 小说创作 | 虚拟专用服务器 | 成语 | 家庭 | 单反相机 | 电视节目 | 投影机 | 面相 | 香港购物 | 配音 | 文具 | 二次元 | 影视 | 固态硬盘ssd | 虚拟机 | 跆拳道 | r（编程语言） | 秦时明月之天行九歌 | 使命召唤 | 网盘 | 地图 | 琅琊榜（电视剧） | 手机内存 | 角色扮演 | 华硕 | 百度输入法 | 盗墓笔记（小说） | 营销策划 | 化妆品 | Windows | ip地址 | 装修设计 | 齐内丁·齐达内 | 动画电影 | 中国中央电视台 | 罗兰 | 网站优化 | 斗鱼直播 | 冷知识 | 张帅 | 任天堂 | 摄影师 | 三菱商事 | 迅雷（软件） | 计算机病毒 | amd | 屏幕 | 微单相机 | 电学 | qq浏览器 | MacOS | 联赛 | snh48 | 芯片（集成电路） | 后宫·甄嬛传（书籍） | 植物辨识 | 运动 | 大一 | 美容 | 双色球 | 蓝牙音箱 | 楼盘 | 电脑电源 | 采暖 | 显卡驱动 | 体育赛事 | thinkpad | 离婚 | 武侠小说 | 索尼笔记本 | 中国足球协会超级联赛（csl） | youtube | 王力宏（人物） | 外星人 | 努比亚（手机品牌） | 海贼王 | 移动电源 | 完美世界（游戏） | 摩托车 | 编辑器 | 低音炮 | 收益 | 海关 | 徐波 | akb48 | 互联网创业 | 张璐 | 男性 | 性价比 | MacBook Air | 新疆维吾尔自治区 | 插座 | 外汇平台 | 华为Mate30 | 羽毛球技术 | 腾讯 QQ | 蓝屏 | 字幕 | 免费软件 | 电脑故障 | 女生 | 周星驰（人物） | 足球欧洲杯 | pdf | macbook | 直播 | 生活经历 | 骁龙处理器 | 主题曲 | 户外运动 | CPU | 娱乐圈 | 初恋 | 家居 | 流氓软件 | 名言 | 中国足球 | 近视眼 | acg | 一级方程式赛车（f1） | 小品 | 网站运营 | 英格兰足球超级联赛 | 一体机 | 人肉搜索 | 日本电影 | 系统软件 | 人生 | 流星花园 | 电钢琴 | 分辨率 | 迅雷 | 机械设计 | 古典音乐 | 液晶电视 | 睡眠 | 大片 | 资产 | Html/Css | ansys | 天蝎座 | 对联 | 大二 | 吉他学习 | 实习 | uc浏览器 | 计算机科学 | 新华社 | 脱毛 | 视力 | 乐视超级电视 | 大学生活 | 开关电源 | 平面设计 | 音乐版权 | iPhone 11 Pro | 面膜 | 鞠婧祎 | 胡歌（演员） | 郭富城 | 语言 | 赵丽颖（演员） | 意大利 | 电路设计 | 情侣 | NBA篮球 | 蔡徐坤 | 豆瓣电影 | 社交软件 | 微信开发 | 足球彩票 | 电工 | 手机摄像头 | 用户界面设计师 | 华语流行音乐 | 网卡 | 易烊千玺 | 笛子 | 日语学习 | 日语歌曲 | 歌手 | 张子枫 | 搏击项目 | 谭松韵 | 快捷键 | O2O | 移民 |

你的位置：网站首页 >> 频道首页 >>学习 >>最大似然算法华为里字母正上方的小尖角，怎么在word里面的式子里打出来？截图为书本里的式子截图。

最大似然算法华为里字母正上方的小尖角，怎么在word里面的式子里打出来？截图为书本里的式子截图。

来源：蜘蛛抓取(WebSpider) 时间：2018-03-27 10:31 标签：最大似然估计算法

数字右上角的小数字和小字母怎么打，还有右下角的怎么打？求助_百度知道
数字右上角的小数字和小字母怎么打，还有右下角的怎么打？求助
我有更好的答案
个比较直接的方法就是：先在你想要打的地方打上你想要的数字然后右键打开字体，在那里面点√，即可。不管你想要哪种比如说要减号的那种还是光数字、在效果一栏里有个上标的空框
采纳率：44%
先用写字板，打上下角标，然后复制粘贴，或者输入法里特殊符号里应该有几个，但是不太多。
用数学公式编辑器，WORD里面有
1条折叠回答
为您推荐：
其他类似问题
您可能关注的内容
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。数学符号 word输入问题
在word里面怎么输入字母头顶上的那个小尖儿？_百度知道
数学符号 word输入问题
在word里面怎么输入字母头顶上的那个小尖儿？
如图的符号，怎么读，最好有英文的读法，一般代表什么，最重要的是在word里或者用MathType怎或者别的工具怎么输入？
我有更好的答案
division 分节号 ⊥ perpendicular to 垂直于 → arrow 箭号: a equals ba≠b ,数学公式中作multiply( parenleft, comma&书名号
∴ hence 所以 … ellipsis 省略号 ∷ equals, as (proportion) 等于：a isn' quote&quot,英文中省略字符用的撇号,音乐里作sharp：minus（negative负的）*：multiplied by÷；系数2
贝塔磁通系数；角度;t equal to ba&b : a is much greater than ba≥b :lf
阿尔法角度. period：序号大写小写英文注音国际音标注音中文注音意义1
α hyphen连字符; backslash 反斜杠| bar: be equal to≈ : be approximately equal to() : round brackets(parenthess)[] ：divided by＝;所有格符号％ percent － dash 破折号 ‰ per mille∞ infinity 无限大号 ∝ varies as 与…成比例 ( ) parentheses 圆括号
√ (square) root 平方根 [ ] square brackets 方括号
∵ because 因为《》 French quotes 法文引号,opening parentheses) parenright? question
space 空格希腊字母读法; apostrophe 省略号使用公式编辑器^ 读做caret———————————————————————————————————+ : plus(positive正的)－,如C#$ dollar% percent^ caret& ampersand* asterisk,star(美语)；系数3
伽马电导系数（小写）4
德尔塔变动；密度；屈光度5
伊普西龙对数之基数6
截塔系数；方位角；阻抗；相对粘度；原子序数7
艾塔磁滞系数；效率（小写）8
西塔温度；相位角9
约塔微小，一点儿10
卡帕介质常数11
兰布达波长（小写）；体积12
缪磁导系数；微（千分之一）；放大因数（小写）13
纽磁阻系数14
奥密克戎16
派圆周率=圆周÷直径=3.1416 17
肉电阻系数（小写）18
西格马总和（大写），表面密度；跨导（小写）19
套时间常数20
宇普西龙位移21
佛爱磁通；角22
普西角速；介质电通量（静电力线）；角24
欧米伽欧姆（大写）；角速（小写）；角: a is greater than ba&& less& greater，成比例 ¨ tandem colon 双点号∠ angle 角 ∶ ditto 双点号⌒ semicircle 半圆 ‖ parallel 双线号 ⊙ circle 圆／ virgule 斜线号
○ circumference 圆周～ swung dash 代字号 △ triangle 三角形 § section: less than or equal to≥ ：greater than or equal to∞：infinityf(x) : the function of xdx : diffrencial of xx+y : x plus y(a+b) : bracket a plus b bracket closeda=b ,closing paretheses- doublequote/ slash\ semicolon: colon&#39,不读_ underscore+ plus= equal[ bracketleft,opening bracket] bracketright,closing bracket{ braceleft} braceright: a is greater than or equal to bx→∞ ：x approches infinity＜ is less than＞ is more than≮ is not less than
≯ is not more than≤ is less than or equal to 小于或等于号 - hyphen 连字符
≥ is more than or equal to 大于或等于号 &#39；参见号 ∪ union of 并，合集∩ intersection of 交，通集
∫ the integral of …的积分 ± plus or minus 正负号 ∑ summation of 总和 × is multiplied by 乘号 ° degree 度 ÷ is divided by 除号
′ minute 分〃 second 秒 ≠ is not equal to 不等于号
≡ is equivalent to 全等于号
℃ Celsius degree 摄氏度 ≌ is equal to or approximately equal to 等于或约等于号计算机编成常用符号英语读音` backquote 反引号~ tilde! exclam@ at# numbersign,英语国家是hash，美语是pound: because∴ : therefore≤ : braces∵ : square brackets{}
用公式编辑器做吧
为您推荐：
其他类似问题
数学符号的相关知识
换一换
回答问题，赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。&p&高能预警：本文涉及大量的数学推导，如有不适，概不负责。&/p&&h2&回归问题与平方误差和&/h2&&p&在回归问题（regression problems）中，我们常用平方误差和（sum of squares）来衡量模型的好坏。&/p&&p&回归问题可以定义如下：&/p&&p&给定一个包含&img src=&http://www.zhihu.com/equation?tex=N& alt=&N& eeimg=&1&& 个数据的训练集 &img src=&http://www.zhihu.com/equation?tex=%5Cmathbb+x%5Cequiv%5C%7Bx_1%2Cx_2%2C%5Cdots%2Cx_N%5C%7D& alt=&\mathbb x\equiv\{x_1,x_2,\dots,x_N\}& eeimg=&1&& ，以及这些数据对应的目标值 &img src=&http://www.zhihu.com/equation?tex=%5Cmathbb+t%3D%5C%7Bt_1%2Ct_2%2C%5Cdots%2Ct_N%5C%7D& alt=&\mathbb t=\{t_1,t_2,\dots,t_N\}& eeimg=&1&& ，回归问题的目标是利用这组训练集，寻找一个合适的模型，来预测一个新的数据点 &img src=&http://www.zhihu.com/equation?tex=%5Chat+x& alt=&\hat x& eeimg=&1&& 对应的目标值 &img src=&http://www.zhihu.com/equation?tex=%5Chat+t& alt=&\hat t& eeimg=&1&& 。记模型的参数为 &img src=&http://www.zhihu.com/equation?tex=w+& alt=&w & eeimg=&1&& ，模型对应的函数为 &img src=&http://www.zhihu.com/equation?tex=y& alt=&y& eeimg=&1&& ，模型的预测值可以相应表示为 &img src=&http://www.zhihu.com/equation?tex=y%28x%2Cw%29& alt=&y(x,w)& eeimg=&1&& 。&/p&&p&为了衡量模型的好坏，需要一种方法衡量预测值与目标值之间的误差，一个常用的选择是平方误差和：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=E%28w%29%3D%5Cfrac12%5Csum_%7Bn%3D1%7D%5EN%5C%7By%28x_n%2Cw%29-t_n%5C%7D%5E2& alt=&E(w)=\frac12\sum_{n=1}^N\{y(x_n,w)-t_n\}^2& eeimg=&1&&&/p&&p&平方误差和函数可以看成是每个数据点 &img src=&http://www.zhihu.com/equation?tex=x_n& alt=&x_n& eeimg=&1&& 的预测值 &img src=&http://www.zhihu.com/equation?tex=y%28x_n%2Cw%29& alt=&y(x_n,w)& eeimg=&1&& 到真实目标值 &img src=&http://www.zhihu.com/equation?tex=t_n& alt=&t_n& eeimg=&1&& 的误差平方和的一半。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-b2f83c54d5f5eadf4c79_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&708& data-rawheight=&540& class=&origin_image zh-lightbox-thumb& width=&708& data-original=&https://pic2.zhimg.com/v2-b2f83c54d5f5eadf4c79_r.jpg&&&/figure&&p&不同的参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 对应于不同的误差函数 &img src=&http://www.zhihu.com/equation?tex=E%28w%29& alt=&E(w)& eeimg=&1&& ，因此，回归问题的目标通常是找到一组参数 &img src=&http://www.zhihu.com/equation?tex=w%5E%5Cstar& alt=&w^\star& eeimg=&1&& 使得误差函数 &img src=&http://www.zhihu.com/equation?tex=E%28w%29& alt=&E(w)& eeimg=&1&& 最小化。&/p&&p&那么最小化 &img src=&http://www.zhihu.com/equation?tex=E%28w%29+& alt=&E(w) & eeimg=&1&& 究竟有什么意义呢？&/p&&p&在回答这个问题之前，我们需要先复习一下概率知识。&/p&&h2&贝叶斯概率&/h2&&p&先复习一下与条件概率相关的贝叶斯公式：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28x%7Cy%29%3D%5Cfrac%7Bp%28y%7Cx%29p%28x%29%7D%7Bp%28y%29%7D& alt=&p(x|y)=\frac{p(y|x)p(x)}{p(y)}& eeimg=&1&&&/p&&p&对于回归问题来说，如果我们记训练集为 &img src=&http://www.zhihu.com/equation?tex=%5Cmathcal+D& alt=&\mathcal D& eeimg=&1&& ，那么对于模型参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&&来说，贝叶斯公式给出：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28w%7C%5Cmathcal+D%29%3D%5Cfrac%7Bp%28%5Cmathcal+D%7Cw%29p%28w%29%7D%7Bp%28%5Cmathcal+D%29%7D& alt=&p(w|\mathcal D)=\frac{p(\mathcal D|w)p(w)}{p(\mathcal D)}& eeimg=&1&&&/p&&p&其中 &img src=&http://www.zhihu.com/equation?tex=p%28w%29& alt=&p(w)& eeimg=&1&& 表示的是参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的先验（prior）分布； &img src=&http://www.zhihu.com/equation?tex=p%28%5Cmathcal+D%7Cw%29& alt=&p(\mathcal D|w)& eeimg=&1&& 给定参数为 &img src=&http://www.zhihu.com/equation?tex=w+& alt=&w & eeimg=&1&& 的情况下，训练数据为 &img src=&http://www.zhihu.com/equation?tex=%5Cmathcal+D& alt=&\mathcal D& eeimg=&1&& 的可能性，我们也可以把它看成一个关于 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的函数，这个函数叫做似然函数（likelihood function）； &img src=&http://www.zhihu.com/equation?tex=p%28w%7C%5Cmathcal+D%29& alt=&p(w|\mathcal D)& eeimg=&1&& 是参数 &img src=&http://www.zhihu.com/equation?tex=w+& alt=&w & eeimg=&1&& 在给定数据 &img src=&http://www.zhihu.com/equation?tex=%5Cmathcal+D& alt=&\mathcal D& eeimg=&1&& 下的后验（posterior）分布。&/p&&p&给定这些定义，贝叶斯公式可以表示成：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Ctext%7Bposterior%7D+%5Cpropto+%5Ctext%7Blikelihood%7D%5Ctimes%5Ctext%7Bprior%7D& alt=&\text{posterior} \propto \text{likelihood}\times\text{prior}& eeimg=&1&&&/p&&p&即后验正比于似然乘以先验。&/p&&p&似然函数是一个非常重要的概念。通过极大似然函数 &img src=&http://www.zhihu.com/equation?tex=p%28%5Cmathcal+D%7Cw%29& alt=&p(\mathcal D|w)& eeimg=&1&& ，我们可以找到一个最优的参数 &img src=&http://www.zhihu.com/equation?tex=w%5E%5Cstar& alt=&w^\star& eeimg=&1&&，使得在这组参数设定下，出现训练数据 &img src=&http://www.zhihu.com/equation?tex=%5Cmathcal+D& alt=&\mathcal D& eeimg=&1&& 的可能性 &img src=&http://www.zhihu.com/equation?tex=p%28%5Cmathcal+D%7Cw%29& alt=&p(\mathcal D|w)& eeimg=&1&& 最大。这组参数在统计上叫做参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的极大似然估计。&/p&&h2&极大似然与回归问题&/h2&&p&早在上初中的时候，我们就学到了在做实验时，需要多次测量取平均来减少误差的道理。我们也知道，误差会来自两个部分：系统误差和随机误差。通过多次测量能够减少随机误差，但是不能减少系统误差，所以测量误差是不可避免的。&/p&&p&同样道理，在回归问题中， &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& 的测量值 &img src=&http://www.zhihu.com/equation?tex=t& alt=&t& eeimg=&1&& 会存在一定的误差。&/p&&p&假定对所有的数据点 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& ，模型预测值 &img src=&http://www.zhihu.com/equation?tex=y%28x%2Cw%29+& alt=&y(x,w) & eeimg=&1&& 与目标值 &img src=&http://www.zhihu.com/equation?tex=t& alt=&t& eeimg=&1&& 之间的误差是一样的，并服从一定的概率分布，比如均值为0，方差为 &img src=&http://www.zhihu.com/equation?tex=%5Cbeta%5E%7B-1%7D%3D%5Csigma%5E2& alt=&\beta^{-1}=\sigma^2& eeimg=&1&& 的高斯分布，则有：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28t-y%28x%2Cw%29%7Cx%2Cw%2C%5Cbeta%29+%5Csim+%5Cmathcal+N%28t-y%28x%2Cw%29%7C0%2C%5Cbeta%5E%7B-1%7D%29& alt=&p(t-y(x,w)|x,w,\beta) \sim \mathcal N(t-y(x,w)|0,\beta^{-1})& eeimg=&1&&&/p&&p&即：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28t%7Cx%2Cw%2C%5Cbeta%29%5Csim%5Cmathcal+N%28t%7Cy%28x%2Ct%29%2C%5Cbeta%5E%7B-1%7D%29& alt=&p(t|x,w,\beta)\sim\mathcal N(t|y(x,t),\beta^{-1})& eeimg=&1&&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-bae85f6dfd8ca0fc64d49_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&846& data-rawheight=&563& class=&origin_image zh-lightbox-thumb& width=&846& data-original=&https://pic2.zhimg.com/v2-bae85f6dfd8ca0fc64d49_r.jpg&&&/figure&&p&对于一组独立同分布的数据点 &img src=&http://www.zhihu.com/equation?tex=%5Cmathbb+x%5Cequiv%5C%7Bx_1%2Cx_2%2C%5Cdots%2Cx_N%5C%7D& alt=&\mathbb x\equiv\{x_1,x_2,\dots,x_N\}& eeimg=&1&& ，以及这些数据对应的目标值 &img src=&http://www.zhihu.com/equation?tex=%5Cmathbb+t%3D%5C%7Bt_1%2Ct_2%2C%5Cdots%2Ct_N%5C%7D& alt=&\mathbb t=\{t_1,t_2,\dots,t_N\}& eeimg=&1&& ，我们得到关于这组数据的似然函数：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28%5Cmathsf+t%7C%5Cmathsf+x%2Cw%2C%5Cbeta%5E%7B-1%7D%29%3D%5Cprod_%7Bn%3D1%7D%5EN+p%28t_n%7Cx_n%2Cw%2C%5Cbeta%5E%7B-1%7D%29%3D%5Cprod_%7Bn%3D1%7D%5EN+%5Cmathcal+N%28t_n%7Cy%28x_n%2Cw%29%2C%5Cbeta%5E%7B-1%7D%29& alt=&p(\mathsf t|\mathsf x,w,\beta^{-1})=\prod_{n=1}^N p(t_n|x_n,w,\beta^{-1})=\prod_{n=1}^N \mathcal N(t_n|y(x_n,w),\beta^{-1})& eeimg=&1&&&/p&&p&其中，高斯分布的概率函数为：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=N%28t%7Cy%28x%2Ct%29%2C%5Cbeta%5E%7B-1%7D%29%3D%5Cleft%28%5Cfrac%7B%5Cbeta%7D%7B2%5Cpi%7D%5Cright%29%5E%7B%5Cfrac+12%7D%5Cexp+%5Cleft%5C%7B-%5Cfrac%7B%5Cbeta%7D+2%5Cleft%5Bt-y%28x%2Cw%29%5Cright%5D%5E2%5Cright%5C%7D& alt=&N(t|y(x,t),\beta^{-1})=\left(\frac{\beta}{2\pi}\right)^{\frac 12}\exp \left\{-\frac{\beta} 2\left[t-y(x,w)\right]^2\right\}& eeimg=&1&&&/p&&p&可以通过极大化这个似然函数得到关于 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的一组极大似然解。&/p&&p&不过，更方便的做法是极大对数似然函数，因为对数函数是严格单增的，所以极大对数似然的解与极大似然的解是相同的。&/p&&p&对数似然函数为：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cln+p%28%5Cmathsf+t%7C%5Cmathsf+x%2Cw%2C%5Cbeta%5E%7B-1%7D%29%3D-%5Cfrac%7B%5Cbeta%7D%7B2%7D%5Csum_%7Bn%3D1%7D%5EN%5C%7By%28x_n%2Cw%29-t%5C%7D%5E2%2B%5Cfrac+N+2%5Cln+%5Cbeta-%5Cfrac+N+2%5Cln+2%5Cpi& alt=&\ln p(\mathsf t|\mathsf x,w,\beta^{-1})=-\frac{\beta}{2}\sum_{n=1}^N\{y(x_n,w)-t\}^2+\frac N 2\ln \beta-\frac N 2\ln 2\pi& eeimg=&1&&&/p&&p&如果我们不考虑 &img src=&http://www.zhihu.com/equation?tex=%5Cbeta+& alt=&\beta & eeimg=&1&& 的影响，那么，对于参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 来说，最小化平方误差和的解，就等于极大对数似然的估计。&/p&&p&因此，最小化平方误差和 &img src=&http://www.zhihu.com/equation?tex=E%28w%29& alt=&E(w)& eeimg=&1&& 与极大似然等价，考虑到似然函数的定义，优化 &img src=&http://www.zhihu.com/equation?tex=E%28w%29& alt=&E(w)& eeimg=&1&& 相当于在给定高斯误差的假设下，寻找一组 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 使得观察到目标值t的概率最大。&/p&&h2&分类问题与交叉熵损失&/h2&&p&现在考虑另一类问题——分类问题。&/p&&p&我们同样给出定义：&/p&&p&给定一个包含&img src=&http://www.zhihu.com/equation?tex=N& alt=&N& eeimg=&1&& 个数据样本的训练集 &img src=&http://www.zhihu.com/equation?tex=%5Cmathbb+x%5Cequiv%5C%7Bx_1%2Cx_2%2C%5Cdots%2Cx_N%5C%7D& alt=&\mathbb x\equiv\{x_1,x_2,\dots,x_N\}& eeimg=&1&& ，以及这些数据对应的类别 &img src=&http://www.zhihu.com/equation?tex=%5Cmathbb+t%3D%5C%7Bt_1%2Ct_2%2C%5Cdots%2Ct_N%5C%7D& alt=&\mathbb t=\{t_1,t_2,\dots,t_N\}& eeimg=&1&& ，这里， &img src=&http://www.zhihu.com/equation?tex=t_n%5Cin%5C%7B1%2C2%2C%5Cdots%2CK%5C%7D& alt=&t_n\in\{1,2,\dots,K\}& eeimg=&1&& ，分类问题的目标是利用这组训练集，寻找一个合适的模型，来预测一个新的数据点 &img src=&http://www.zhihu.com/equation?tex=%5Chat+x& alt=&\hat x& eeimg=&1&& 对应的类别 &img src=&http://www.zhihu.com/equation?tex=%5Chat+t& alt=&\hat t& eeimg=&1&& 。现在假设模型的参数为 &img src=&http://www.zhihu.com/equation?tex=w+& alt=&w & eeimg=&1&& ，模型输出是属于每一类的概率，预测为第 &img src=&http://www.zhihu.com/equation?tex=k%5Cin+%5C%7B1%2C2%2C%5Cdots%2CK%5C%7D& alt=&k\in \{1,2,\dots,K\}& eeimg=&1&& 类的概率为 &img src=&http://www.zhihu.com/equation?tex=p%28k%7Cx%2Cw%29& alt=&p(k|x,w)& eeimg=&1&& 。&/p&&p&对于样本 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& ，其属于第 &img src=&http://www.zhihu.com/equation?tex=t& alt=&t& eeimg=&1&& 类的概率为：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28t%7Cx%2Cw%29%3D%5Cprod_%7Bk%3D1%7D%5EK+p%28y%3Dt%7Cx%2Cw%29%5E%7B1_%7Bt%3Dk%7D%7D& alt=&p(t|x,w)=\prod_{k=1}^K p(y=t|x,w)^{1_{t=k}}& eeimg=&1&&&/p&&p&其中， &img src=&http://www.zhihu.com/equation?tex=1_%7Bt%3Dk%7D%3D%5Cleft%5C%7B%5Cbegin%7Balign%7D+%261%2C+%26+t%3Dk%5C%5C+%260%2C+%26+t%5Cneq+k%5C%5C+%5Cend%7Balign%7D%5Cright.& alt=&1_{t=k}=\left\{\begin{align} &1, & t=k\\ &0, & t\neq k\\ \end{align}\right.& eeimg=&1&&
。&/p&&p&因此，似然函数为：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28%5Cmathsf+t%7C%5Cmathsf+x%2C+w%29%3D%5Cprod_%7Bn%3D1%7D%5EN%28%5Cprod_%7Bk%3D1%7D%5EK+p%28t_n%7Cx_n%2Cw%29%5E%7B1_%7Bt%3Dk%7D%7D+%29& alt=&p(\mathsf t|\mathsf x, w)=\prod_{n=1}^N(\prod_{k=1}^K p(t_n|x_n,w)^{1_{t=k}} )& eeimg=&1&&&/p&&p&对数似然为：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cln+p%28t%7Cx%2Cw%29%3D%5Csum_%7Bn%3D1%7D%5EN+%5Csum_%7Bk%3D1%7D%5EK+1_%7Bt%3Dk%7D%5Clog+p%28t_n%7Cx_n%2Cw%29& alt=&\ln p(t|x,w)=\sum_{n=1}^N \sum_{k=1}^K 1_{t=k}\log p(t_n|x_n,w)& eeimg=&1&&&/p&&p&极大化对数似然，相当于极小化：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=-%5Csum_%7Bn%3D1%7D%5EN+%5Csum_%7Bk%3D1%7D%5EK+1_%7Bt%3Dk%7D%5Clog+p%28t_n%7Cx_n%2Cw%29& alt=&-\sum_{n=1}^N \sum_{k=1}^K 1_{t=k}\log p(t_n|x_n,w)& eeimg=&1&&&/p&&p&事实上，这正是我们常使用的多类交叉熵损失函数的表示形式。&/p&&p&因此，在分类问题中，最小化交叉熵损失函数相当与极大样本的似然函数。&/p&&h2&正则项&/h2&&p&在优化目标函数时，除了正常的损失函数外，为了防止过拟合，我们通常会加入一些正则项，比如权值衰减（weight decay），lasso等等。&/p&&p&比如，在回归问题中，使用权值衰减后，目标函数可能是：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=E%28w%29%3D%5Cfrac+1+2%5Csum_%7Bn%3D1%7D%5EN%5C%7By%28x_n%2Cw%29-t%5C%7D%5E2+%2B%5Clambda+w%5E%5Ctop+w& alt=&E(w)=\frac 1 2\sum_{n=1}^N\{y(x_n,w)-t\}^2 +\lambda w^\top w& eeimg=&1&&&/p&&p&这里，我们假定 &img src=&http://www.zhihu.com/equation?tex=w+& alt=&w & eeimg=&1&& 可以被拉长表示为一个一维向量。&/p&&p&此时，优化这个目标函数就不能用极大似然来解释了。&/p&&p&不过，如果我们观察贝叶斯公式：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28w%7C%5Cmathcal+D%29%3D%5Cfrac%7Bp%28%5Cmathcal+D%7Cw%29p%28w%29%7D%7Bp%28%5Cmathcal+D%29%7D& alt=&p(w|\mathcal D)=\frac{p(\mathcal D|w)p(w)}{p(\mathcal D)}& eeimg=&1&&&/p&&p&以及：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Ctext%7Bposterior%7D+%5Cpropto+%5Ctext%7Blikelihood%7D%5Ctimes%5Ctext%7Bprior%7D& alt=&\text{posterior} \propto \text{likelihood}\times\text{prior}& eeimg=&1&&&/p&&p&我们会发现，如果对两边取对数，那么有：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cln+p%28w%7C%5Cmathcal+D%29+%3D+%5Cln+p%28%5Cmathcal+D%7Cw%29%2B+%5Cln+p%28w%29+%2B+const& alt=&\ln p(w|\mathcal D) = \ln p(\mathcal D|w)+ \ln p(w) + const& eeimg=&1&&&/p&&p&那么，我们加入的正则项，是不是对应于 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的先验分布 &img src=&http://www.zhihu.com/equation?tex=p%28w%29& alt=&p(w)& eeimg=&1&& 呢？&/p&&p&答案当然是肯定的。&/p&&p&如果给出参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的先验，那么极大后验估计（Maximize a Posterior, MAP）是能给出类似带正则项目标函数 &img src=&http://www.zhihu.com/equation?tex=E%28w%29+& alt=&E(w) & eeimg=&1&& 的结构的。&/p&&p&问题是什么样的先验会给出类似权值衰减的正则项呢？&/p&&p&一个通常的想法是我们认为参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 服从的先验分布是一个均值0，方差 &img src=&http://www.zhihu.com/equation?tex=%5Calpha%5E%7B-1%7DI& alt=&\alpha^{-1}I& eeimg=&1&& 的D维高斯分布，那么，我们有：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28w%7C%5Calpha%29%3D%5Cmathcal+N%280%2C%5Calpha%5E%7B-1%7DI%29%3D%5Cleft%28%5Cfrac%7B%5Calpha%7D%7B2%5Cpi%7D+%5Cright%29%5E%7B%5Cfrac+D+2%7D+%5Cexp+%5Cleft%5C%7B-%5Cfrac+%5Calpha+2+w%5E%5Ctop+w+%5Cright%5C%7D& alt=&p(w|\alpha)=\mathcal N(0,\alpha^{-1}I)=\left(\frac{\alpha}{2\pi} \right)^{\frac D 2} \exp \left\{-\frac \alpha 2 w^\top w \right\}& eeimg=&1&&&/p&&p&其对数为：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cln+p%28w%7C%5Calpha%29%3D-%5Cfrac+%5Calpha2+w%5E%5Ctop+w+%2B+const& alt=&\ln p(w|\alpha)=-\frac \alpha2 w^\top w + const& eeimg=&1&&&/p&&p&结合我们之前的推导，我们有： &img src=&http://www.zhihu.com/equation?tex=%5Cln+p%28w%7C%5Cmathsf+t%2C+%5Cmathsf+x%2C%5Cbeta%2C%5Calpha%29%3D%5Cln+p%28%5Cmathsf+t%7C%5Cmathsf+x%2Cw%2C%5Cbeta%29+%2B+%5Cln+p%28w%7C%5Calpha%29%3D-%5Cfrac+%5Cbeta+2%5Csum_%7Bn%3D1%7D%5EN%5C%7By%28x_n%2Cw%29-t%5C%7D%5E2+-%5Cfrac+%5Calpha+2+w%5E%5Ctop+w+%2B+const& alt=&\ln p(w|\mathsf t, \mathsf x,\beta,\alpha)=\ln p(\mathsf t|\mathsf x,w,\beta) + \ln p(w|\alpha)=-\frac \beta 2\sum_{n=1}^N\{y(x_n,w)-t\}^2 -\frac \alpha 2 w^\top w + const& eeimg=&1&&&/p&&p&因此，加权值衰减的正则与高斯分布先验下极大后验估计的结果一致。&/p&&p&对于分类问题，该结论依然成立。&/p&&h2&为什么是高斯分布？&/h2&&p&我们已经将解释了目标函数中，优化某些损失函数和正则项的意义。在解释更多的损失函数和正则项之前，需要先解决一个问题。&/p&&p&为什么是高斯分布？怎么老是高斯分布？&/p&&p&先给出结论：&/p&&p&对于一个连续随机变量 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& ，在给定均值和方差的约束下，交叉信息熵最大的分布是高斯分布。&/p&&p&熵是描述系统混乱度的概念，热力学第二定律告诉我们，在没有外力作用时，熵总是趋于自增的，因此，上面的结论告诉我们，生活中很多现象服从高斯分布并不是偶然。&/p&&p&先引出信息熵的概念。&/p&&p&先考虑一个离散随机变量 &img src=&http://www.zhihu.com/equation?tex=X& alt=&X& eeimg=&1&&，给定一个该随机变量的观察值 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& ，希望用一个函数 &img src=&http://www.zhihu.com/equation?tex=h%28x%29& alt=&h(x)& eeimg=&1&& 去衡量 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& 所携带的信息量。一般来说，如果 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& 是一件概率很低的事情，那么我们会觉得它很有信息量，反之，如果 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& 是一件经常发生的事情，那么我们会觉得信息量很少。因此，信息量会和 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& 发生的概率 &img src=&http://www.zhihu.com/equation?tex=p%28x%29& alt=&p(x)& eeimg=&1&& 相关。&/p&&p&另一方面，我们认为，如果两个事件 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& 和 &img src=&http://www.zhihu.com/equation?tex=y& alt=&y& eeimg=&1&& 是相互独立的，那么，我们认为两者携带的信息量是各自信息量之和：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=h%28x%2Cy%29%3Dh%28x%29%2Bh%28y%29& alt=&h(x,y)=h(x)+h(y)& eeimg=&1&&&/p&&p&另一方面。独立性给出：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28x%2Cy%29%3Dp%28x%29p%28y%29& alt=&p(x,y)=p(x)p(y)& eeimg=&1&&&/p&&p&再考虑约束，当 &img src=&http://www.zhihu.com/equation?tex=p%28x%29%3D1& alt=&p(x)=1& eeimg=&1&& 时， &img src=&http://www.zhihu.com/equation?tex=h%28x%29%3D0& alt=&h(x)=0& eeimg=&1&& ，不难看出，符合条件的是概率密度的对数函数，不妨定义为：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=h%28x%29%3D-%5Clog_2+p%28x%29& alt=&h(x)=-\log_2 p(x)& eeimg=&1&&&/p&&p&这里，使用2为底的对数并不是必须的，也可以使用其他底。不过使用2为底，信息的单位就变成了bit。&/p&&p&对于一个离散分布 &img src=&http://www.zhihu.com/equation?tex=X& alt=&X& eeimg=&1&& 来说，其信息的期望为：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=H%5Bx%5D%3D-%5Csum_x+p%28x%29%5Clog_2+p%28x%29& alt=&H[x]=-\sum_x p(x)\log_2 p(x)& eeimg=&1&&&/p&&p&我们把 &img src=&http://www.zhihu.com/equation?tex=H%5Bx%5D& alt=&H[x]& eeimg=&1&& 叫做这个随机变量的熵。&/p&&p&比如说，对于一个等概率，取值为8个的离散分布，其熵为：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=H%3D-8%5Ctimes%5Cfrac+1+8+%5Ctimes+%5Clog+%5Cfrac+1+8%3D+3%7Ebits& alt=&H=-8\times\frac 1 8 \times \log \frac 1 8= 3~bits& eeimg=&1&&&/p&&p&3比特正是用2进制表示这8个值所需要的大小。&/p&&p&再比如说，考虑取值为 &img src=&http://www.zhihu.com/equation?tex=a%2Cb%2Cc%2Cd& alt=&a,b,c,d& eeimg=&1&& ，概率为： &img src=&http://www.zhihu.com/equation?tex=%5Cfrac+1+2%2C+%5Cfrac+1+4%2C+%5Cfrac+1+8%2C+%5Cfrac+1+8& alt=&\frac 1 2, \frac 1 4, \frac 1 8, \frac 1 8& eeimg=&1&& 的分布，其熵为：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=H%3D-%5Cfrac+1+2%5Clog_2+%5Cfrac12-%5Cfrac+1+4%5Clog_2+%5Cfrac14-2%5Ctimes%5Cfrac+1+8%5Clog_2+%5Cfrac18%3D1.75%7Ebits& alt=&H=-\frac 1 2\log_2 \frac12-\frac 1 4\log_2 \frac14-2\times\frac 1 8\log_2 \frac18=1.75~bits& eeimg=&1&&&/p&&p&而这正是用霍夫曼编码a：0，b：10，c：110，d：111表示这四个值的平均比特大小。&/p&&p&除了以2为底，我们还可以以其他对数为底，比如自然对数：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=H%5Bp%5D%3D-%5Csum_xp%28x%29%5Cln+p%28x%29& alt=&H[p]=-\sum_xp(x)\ln p(x)& eeimg=&1&&&/p&&p&连续分布：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=H%5Bp%5D%3D-%5Cint_x+p%28x%29%5Cln+p%28x%29+dx& alt=&H[p]=-\int_x p(x)\ln p(x) dx& eeimg=&1&&&/p&&p&现在假设某个分布满足：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cint_x+p%28x%29dx%3D1& alt=&\int_x p(x)dx=1& eeimg=&1&&&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cint_x+xp%28x%29dx%3D%5Cmu& alt=&\int_x xp(x)dx=\mu& eeimg=&1&&&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cint_x+%28x-%5Cmu%29%5E2p%28x%29dx%3D%5Csigma%5E2& alt=&\int_x (x-\mu)^2p(x)dx=\sigma^2& eeimg=&1&&&/p&&p&在这些假设下，为了使 &img src=&http://www.zhihu.com/equation?tex=H%5Bp%5D+& alt=&H[p] & eeimg=&1&& 最大，其Lagrange函数为：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=-%5Cint_x+p%28x%29%5Cln+p%28x%29+dx+%2B%5Clambda_1%28%5Cint_x+p%28x%29ds-1%29+%2B%5Clambda_2%28%5Cint_xxp%28x%29dx-%5Cmu%29+%2B%5Clambda_3%28%5Cint_x+%28x-%5Cmu%29%5E2p%28x%29dx-%5Csigma%5E2%29& alt=&-\int_x p(x)\ln p(x) dx +\lambda_1(\int_x p(x)ds-1) +\lambda_2(\int_xxp(x)dx-\mu) +\lambda_3(\int_x (x-\mu)^2p(x)dx-\sigma^2)& eeimg=&1&&&/p&&p&即：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cint_x+%5B-p%5Cln+p%2B%5Clambda_1+p%2B%5Clambda_2xp%2B%5Clambda_3%28x-%5Cmu%5E2%29p%5D%7Edx+%2B+const+%3D+%5Cint_x+G%28p%2C+x%29dx+%2B+const& alt=&\int_x [-p\ln p+\lambda_1 p+\lambda_2xp+\lambda_3(x-\mu^2)p]~dx + const = \int_x G(p, x)dx + const& eeimg=&1&&&/p&&p&利用变分法中的欧拉-拉格朗日方程&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cfrac+%7B%5Cpartial+G%7D%7B%5Cpartial+p%7D-%5Cfrac+%7Bd%7D%7Bdx%7D+%5Cleft%28%5Cfrac%7B%5Cpartial+G%7D%7B%5Cpartial+p%27%7D%5Cright%29+%3D+0& alt=&\frac {\partial G}{\partial p}-\frac {d}{dx} \left(\frac{\partial G}{\partial p'}\right) = 0& eeimg=&1&&&/p&&p&我们得到使得 &img src=&http://www.zhihu.com/equation?tex=H%5Bp%5D& alt=&H[p]& eeimg=&1&& 最大的 &img src=&http://www.zhihu.com/equation?tex=p%28x%29& alt=&p(x)& eeimg=&1&& 需要满足：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cln+p%28x%29%3D-1%2B%5Clambda_1%2B%5Clambda_2x%2B%5Clambda_3%28x-%5Cmu%29%5E2& alt=&\ln p(x)=-1+\lambda_1+\lambda_2x+\lambda_3(x-\mu)^2& eeimg=&1&&&/p&&p&即：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28x%29%3D%5Cexp+%28-1%2B%5Clambda_1%2B%5Clambda_2x%2B%5Clambda_3%28x-%5Cmu%29%5E2%29& alt=&p(x)=\exp (-1+\lambda_1+\lambda_2x+\lambda_3(x-\mu)^2)& eeimg=&1&&&/p&&p&带入约束中，不难解出：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28x%29%3D%5Cfrac+1+%7B%5Csqrt%7B2%5Cpi%7D%5Csigma%7D+%5Cexp+%5Cleft%5C%7B%5Cfrac+%7B%28x-%5Cmu%29%5E2%7D%7B2%5Csigma%5E2%7D%5Cright%5C%7D& alt=&p(x)=\frac 1 {\sqrt{2\pi}\sigma} \exp \left\{\frac {(x-\mu)^2}{2\sigma^2}\right\}& eeimg=&1&&&/p&&p&即高斯分布是满足约束下，熵最大的分布。&/p&&h2&更多的损失函数与正则&/h2&&p&接下来，我们讨论其他的损失函数与正则。&/p&&p&事实上，如果我们考虑更一般的分布：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28x%7C%5Csigma%5E2%2Cq%29%3D%5Cfrac%7Bq%7D%7B2%282%5Csigma%5E2%29%5E%7B1%2Fq%7D%5CGamma%281%2Fq%29%7D+%5Cexp%5Cleft%5C%7B-%5Cfrac%7B%7Cx%7C%5Eq%7D%7B2%5Csigma%5E2%7D%5Cright%5C%7D& alt=&p(x|\sigma^2,q)=\frac{q}{2(2\sigma^2)^{1/q}\Gamma(1/q)} \exp\left\{-\frac{|x|^q}{2\sigma^2}\right\}& eeimg=&1&&&/p&&p&不难得出：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cln+p%28x%7C%5Csigma%5E2%2Cq%29%3D-%5Cfrac+%7B%7Cx%7C%5Eq%7D%7B2%5Csigma%5E2%7D%2Bconst& alt=&\ln p(x|\sigma^2,q)=-\frac {|x|^q}{2\sigma^2}+const& eeimg=&1&&&/p&&p&在回归问题中，如果我们用这个分布作为预测值与目标值之间误差的分布：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=t%3Dy%28x%2Cw%29%2B%5Cepsilon%2C+%7E%5Cepsilon%5Csim+p%28%5Cepsilon%7C%5Csigma%5E2%2Cq%29& alt=&t=y(x,w)+\epsilon, ~\epsilon\sim p(\epsilon|\sigma^2,q)& eeimg=&1&&&/p&&p&那么，对应的损失函数为 &img src=&http://www.zhihu.com/equation?tex=L_q& alt=&L_q& eeimg=&1&& 损失函数：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%7Cy%28x%2Cw%29-t%7C%5Eq& alt=&|y(x,w)-t|^q& eeimg=&1&&&/p&&p&如果我们认为参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的先验服从该分布：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=w%5Csim+p%28w%7C%5Csigma%5E2%2Cp%29& alt=&w\sim p(w|\sigma^2,p)& eeimg=&1&&&/p&&p&那么，对应的正则项为 &img src=&http://www.zhihu.com/equation?tex=L_p& alt=&L_p& eeimg=&1&& 正则项：&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%7Cw%7C_p& alt=&|w|_p& eeimg=&1&&&/p&&p&当 &img src=&http://www.zhihu.com/equation?tex=p%3D1& alt=&p=1& eeimg=&1&& 时，我们相当于加了一个 &img src=&http://www.zhihu.com/equation?tex=L_1& alt=&L_1& eeimg=&1&& 范数的正则项，即Lasso，它通常具有稀疏的作用，原因是此时参数的先验分布大概长这个样子：&/p&&figure&&img src=&https://pic1.zhimg.com/v2-116c629ceec_b.jpg& data-size=&normal& data-rawwidth=&375& data-rawheight=&252& class=&content_image& width=&375&&&figcaption&p(w|0.01,1)&/figcaption&&/figure&&h2&总结&/h2&&p&总而言之，优化损失函数与正则项，其实代表的是对参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的极大似然或者极大后验估计，不同的损失函数和正则项，反映的我们对参数先验分布和似然函数的不同假设。&/p&&p&&br&&/p&&p&[1] Christopher, M. Bishop. &Pattern recognition and machine learning.& Company New York 16.4 (2006): 049901.&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&
高能预警：本文涉及大量的数学推导，如有不适，概不负责。回归问题与平方误差和在回归问题（regression problems）中，我们常用平方误差和（sum of squares）来衡量模型的好坏。回归问题可以定义如下：给定一个包含N 个数据的训练集 \mathbb x\equiv\{x_1,x…
&p&以这篇文章开始，我将跟大家分享多篇有关数学优化的原创文章。第一篇我们走进天下五绝之首，中神通Fenchel。 &/p&&p&&br&&/p&&p&&b&前言&/b&&/p&&p&Fenchel出生在德国柏林的犹太家庭，博士毕业于柏林大学。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-a5ea38e0f8c16bc334fad0b3c7f315d9_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&252& data-rawheight=&400& class=&content_image& width=&252&&&/figure&&p&这个德国出生的年轻人的第一份工作就在哥廷根数学研究所(the Mathematical Institute in Gottingen)，跟从Edmund Landau做凸优化相关研究，注意这个Landau不是物理界的神Lev Landau。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-970b6cd67d3af96a087630_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1280& data-rawheight=&853& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&https://pic1.zhimg.com/v2-970b6cd67d3af96a087630_r.jpg&&&/figure&&p&首先哥廷根数学研究所不是一个简单的地方，高斯，黎曼，希尔伯特，克莱因，卡拉西奥多里，狄利克莱，冯诺依曼都在这里工作过。 &/p&&figure&&img src=&https://pic2.zhimg.com/v2-aae5efae392d95b657fa6f5fe4241ac5_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1358& data-rawheight=&420& class=&origin_image zh-lightbox-thumb& width=&1358& data-original=&https://pic2.zhimg.com/v2-aae5efae392d95b657fa6f5fe4241ac5_r.jpg&&&/figure&&p&其次，他的博士导师Ludwig Bieberbach就是研究不等式的大师，而Ludwig的导师就是克莱因，所以他是克莱因的徒孙。 Ludwig把自己优秀的学生Fenchel介绍给自己在Gottingen的好友Edmund做助理。 &/p&&p&&br&&/p&&p&从此， Fenchel利用继承Ludwig搞不等式的精神来做Edmund的凸优化，这个世界上最优秀的凸优化大师的课题。一下子奠定了凸优化的基础，开启了凸优化发展的新模式-对偶模式。 &/p&&p&&br&&/p&&p&由于纳粹的影响， Fenchel被迫离开了心爱的哥根廷，去了丹麦的哥本哈根。凡事好坏皆有，好事是，在那里他和犹太女数学家K?te Sperling结婚了。 Kate是非阿贝尔群方面的大师。两人数学伉俪在哥本哈根也被占领后被迫去了美国，但是战后，又回到了哥本哈根大学，并在那里生活了一辈子。 &/p&&figure&&img src=&https://pic4.zhimg.com/v2-8bbe85f2bc7905eabeb8f_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1234& data-rawheight=&788& class=&origin_image zh-lightbox-thumb& width=&1234& data-original=&https://pic4.zhimg.com/v2-8bbe85f2bc7905eabeb8f_r.jpg&&&/figure&&p&另外，随便提一下。Fenchel有个微分几何数学家好朋友，叫Busemann。就是下面图片，浅色西装那位，他会的工作语言有French, German, Spanish, Italian, Russian, 和 Danish。口语还有Arabic, Latin, Greek and Swedish。简直太牛了！我们知道Boltzmann、Lagrange和Kolmogorov等大数学家，最早也是学习语言和历史，然后转到数学的。
所以如果想要学好数学，请先学好语言学。 &/p&&p&&br&&/p&&p&下图：
Werner Fenchel, Alexander Danilowitsch Alexandroff, Herbert Busemann, B?rge Jessen 的合影。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-f4cb6e3e5812433ddfc6d3f1_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&800& data-rawheight=&556& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&https://pic2.zhimg.com/v2-f4cb6e3e5812433ddfc6d3f1_r.jpg&&&/figure&&p&&b&从Legendre变换到Fenchel共轭&/b&&/p&&p&&br&&/p&&p&Fenchel共轭的研究，是对Legendre变换的一个扩展（参考 & &a href=&https://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzIzMjU1NTg3Ng%3D%3D%26mid%3D%26idx%3D1%26sn%3De0cd2e9ac37ab77a251dd7%26chksm%3De892517ddfe5d86bd39d9ed66a7ca44b9cbe82909e%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Legendre变变变&/a& & ），突破了Legendre对凸可导的限制。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-508b7fe1188ace294acdb8_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&384& data-rawheight=&444& class=&content_image& width=&384&&&/figure&&p&对于不可以求导的，没有导数。 &/p&&figure&&img src=&https://pic3.zhimg.com/v2-a5e1d405dcbc_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&840& data-rawheight=&504& class=&origin_image zh-lightbox-thumb& width=&840& data-original=&https://pic1.zhimg.com/v2-a5e1d405dcbc_r.jpg&&&/figure&&p&另外一种情况下，就是对于非凸的情况，导数不唯一。 &/p&&figure&&img src=&https://pic4.zhimg.com/v2-bfabe03aee666d_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&762& data-rawheight=&472& class=&origin_image zh-lightbox-thumb& width=&762& data-original=&https://pic2.zhimg.com/v2-bfabe03aee666d_r.jpg&&&/figure&&p&那么， Fenchel是怎么解决这个问题的呢？一方面要兼容Legendre的导数支撑面，另外一方面要让不可导或者非凸情况下，具有函数的唯一性。 &/p&&p&&br&&/p&&p&&i&Fenchel利用了罗尔定理到中值定理中描述的极值和导数的关系。用极大或者极小值来隐含导数的关系。&/i& &/p&&figure&&img src=&https://pic2.zhimg.com/v2-2d90d434b68f60694bbf630120fcb53d_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1268& data-rawheight=&566& class=&origin_image zh-lightbox-thumb& width=&1268& data-original=&https://pic2.zhimg.com/v2-2d90d434b68f60694bbf630120fcb53d_r.jpg&&&/figure&&p&另外极值，在非凸情况下的线性外包络是凸函数。 &/p&&figure&&img src=&https://pic4.zhimg.com/v2-5be380da17c97c28452d79_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1190& data-rawheight=&816& class=&origin_image zh-lightbox-thumb& width=&1190& data-original=&https://pic2.zhimg.com/v2-5be380da17c97c28452d79_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-36faa47b6aa6a0a8de2e_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1330& data-rawheight=&388& class=&origin_image zh-lightbox-thumb& width=&1330& data-original=&https://pic2.zhimg.com/v2-36faa47b6aa6a0a8de2e_r.jpg&&&/figure&&p&&br&&/p&&p&这样使得Fenchel共轭函数的性质非常好。
当然Legendre肯定不是故意忽视这个方面的，而是在当时物理的发展应用下，没有这个需求。&/p&&p&&br&&/p&&p&&b&Fenchel共轭的三个视角&/b&&/p&&p&&br&&/p&&p&&b&一：切线支持面&/b&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-c9d81ea837a99c697fefe9a7_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1158& data-rawheight=&556& class=&origin_image zh-lightbox-thumb& width=&1158& data-original=&https://pic4.zhimg.com/v2-c9d81ea837a99c697fefe9a7_r.jpg&&&/figure&&p&在这种理解下，我们细看一下， Fenchel共轭函数，它是切线簇的截距b的负值簇。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-2cf776872cddeb6272d41_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&852& data-rawheight=&544& class=&origin_image zh-lightbox-thumb& width=&852& data-original=&https://pic2.zhimg.com/v2-2cf776872cddeb6272d41_r.jpg&&&/figure&&p&假设斜率s，那么固定s情况下，经过一个切点( x*, f(x*) )的直线的截距和x*围成一个直角三角形。
这个直角三角形的斜率s为垂直边长度比上水平边长度的比值。
或者说水平边长度乘以斜率得到垂直边长度。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-1e870078ddb3ede07395b0_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&858& data-rawheight=&380& class=&origin_image zh-lightbox-thumb& width=&858& data-original=&https://pic1.zhimg.com/v2-1e870078ddb3ede07395b0_r.jpg&&&/figure&&p&这样我们找到了截距和斜率直接的关系，在这个关系里面，稍微有点不和谐的是负的斜率。但是这样写成斜率的一阶形式，比较好看些。那剩下来的问题，只要确定这个切点就可以了。 &/p&&p&在这一层理解上，你会发现一个很有意思的东西，就是一个函数和它的Fenchel共轭之间通过切线联系起来。更好玩的是，如果继续对共轭再取共轭，又回到了原函数。
所以，开启了凸可到函数和切线之间的神奇模式。 &/p&&figure&&img src=&https://pic4.zhimg.com/v2-fc73ac506b9d7ac7dd6b16bc91fd77cb_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1030& data-rawheight=&544& class=&origin_image zh-lightbox-thumb& width=&1030& data-original=&https://pic4.zhimg.com/v2-fc73ac506b9d7ac7dd6b16bc91fd77cb_r.jpg&&&/figure&&p&&b&二：曲线上到过原点斜线最远距离&/b&&/p&&p&&br&&/p&&p&对于非凸的情况，切线支撑面可能就不太好理解了。但是这个毕竟是最早的思想的来源。如果换成极值的情况下。就是先固定一个斜率，然后作过原点的直线，然后找直线上所有的点里面到这个点垂直距离最大的点，当然这里要考虑正负号的计算。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-c9fe5bd4dc6_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&541& data-rawheight=&307& class=&origin_image zh-lightbox-thumb& width=&541& data-original=&https://pic3.zhimg.com/v2-c9fe5bd4dc6_r.jpg&&&/figure&&p&&br&&/p&&p&用固定斜率直线上的点，减去曲线上的点。当然，如果你从最远点做一条平行线，可以证明这个线在凸可导的情况下是切线的。所以，这样可以从图形上理解，从Legendre变换到Fenchel共轭的演变。就是把切线平移到过原点，把截距变成了斜线上点到切点的垂直距离。 &/p&&figure&&img src=&https://pic4.zhimg.com/v2-20901fce41b710cdba10d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&303& data-rawheight=&260& class=&content_image& width=&303&&&/figure&&p&&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-d17ea118f866d47a2afc_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1050& data-rawheight=&370& class=&origin_image zh-lightbox-thumb& width=&1050& data-original=&https://pic1.zhimg.com/v2-d17ea118f866d47a2afc_r.jpg&&&/figure&&p&这是理解Fenchel共轭的第二层境界，有了这层境界，就可以理解Bregmen Divergence距离的用意了。Bregman散度的定义如下：&/p&&figure&&img src=&https://pic3.zhimg.com/v2-c319c431b154d0e31eb22a83d8624a6d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&584& data-rawheight=&92& class=&origin_image zh-lightbox-thumb& width=&584& data-original=&https://pic2.zhimg.com/v2-c319c431b154d0e31eb22a83d8624a6d_r.jpg&&&/figure&&p&Bregmen散度的几何意义非常清楚，就是下图，红色线的长度。但是为什么要计算这个距离呢？假如你不知道Bregman散度，但是知道KL散度，那么KL散度，可以看成是Bregmen散度的一个特例，是不是一下子就重要了？&/p&&figure&&img src=&https://pic4.zhimg.com/v2-bad406df5ca_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1496& data-rawheight=&888& class=&origin_image zh-lightbox-thumb& width=&1496& data-original=&https://pic1.zhimg.com/v2-bad406df5ca_r.jpg&&&/figure&&p&我们看一个东西， Fenchel共轭的共轭：&/p&&figure&&img src=&https://pic4.zhimg.com/v2-7ba906ef09f7_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&676& data-rawheight=&298& class=&origin_image zh-lightbox-thumb& width=&676& data-original=&https://pic3.zhimg.com/v2-7ba906ef09f7_r.jpg&&&/figure&&p&&br&&/p&&p&从上面，可以看到很明显的有如下公式&/p&&figure&&img src=&https://pic1.zhimg.com/v2-cddcf051a1b9ce4c4ce29ac_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&406& data-rawheight=&80& class=&content_image& width=&406&&&/figure&&p&而Bregman距离，就是告诉你在Fenchel共轭里面，这个单一线情况的距离。尤其对于部分非凸的情况下的闭包设计。
这样，大家也可以去理解一下，共轭的共轭的对于非凸函数的伟大意义了。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-f7f22915f8_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1182& data-rawheight=&804& class=&origin_image zh-lightbox-thumb& width=&1182& data-original=&https://pic1.zhimg.com/v2-f7f22915f8_r.jpg&&&/figure&&p&&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-6c2ef00cbd6119_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1777& data-rawheight=&1143& class=&origin_image zh-lightbox-thumb& width=&1777& data-original=&https://pic2.zhimg.com/v2-6c2ef00cbd6119_r.jpg&&&/figure&&p&&b&三：曲线的垂直轴的积分&/b&&/p&&p&&br&&/p&&p&接下来，我们要讲Fenchel共轭理解的第三层境界。理解了这一层境界，就可以对Fenchel函数的各种高深性质进行直观理解了。 &/p&&p&如果我们直接把切线看成一个函数，把凸函数本身看成是一个积分，那么一个函数和它的共轭就是同一个导数曲线分别对X轴和Y轴的积分，所以他们相加起来，结果为正方形的大小XY。
根据逆函数的性质，所以我们知道共轭函数的导数互为逆函数。这就是在第一层境界里面理解的神奇的本质关系。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-30b6e508a81a169f1fe6ec_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1276& data-rawheight=&892& class=&origin_image zh-lightbox-thumb& width=&1276& data-original=&https://pic2.zhimg.com/v2-30b6e508a81a169f1fe6ec_r.jpg&&&/figure&&p&那么，按这个理解，对于其他情况呢？其实也是类似的，只是不是XY，而是差了一个曲线围住的常数。这里就不展开了。 &/p&&figure&&img src=&https://pic3.zhimg.com/v2-ba5d9b6a17f4c7c70c602_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&2220& data-rawheight=&930& class=&origin_image zh-lightbox-thumb& width=&2220& data-original=&https://pic3.zhimg.com/v2-ba5d9b6a17f4c7c70c602_r.jpg&&&/figure&&p&&b&Fenchel-Young 不等式&/b&&/p&&p&&br&&/p&&p&直观上理解Fenchel不等式&/p&&p&Fenchel不等式证明非常容易。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-bec6d70eb_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&716& data-rawheight=&146& class=&origin_image zh-lightbox-thumb& width=&716& data-original=&https://pic4.zhimg.com/v2-bec6d70eb_r.jpg&&&/figure&&p&但是如何联系图形图像去理解，一旦有了第三层对Fenchel共轭的理解之后就很容易从图形上去理解Fenchel不等式了。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-6e930ccf380c4f6fe7a61e58124acde6_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&330& data-rawheight=&88& class=&content_image& width=&330&&&/figure&&p&如下图所示，当给定的矩阵，不是刚好落在导数上的时候，那么矩阵的面积就小于两个积分之和了。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-5c472c8cfc64fb4b9fade34_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1394& data-rawheight=&1020& class=&origin_image zh-lightbox-thumb& width=&1394& data-original=&https://pic1.zhimg.com/v2-5c472c8cfc64fb4b9fade34_r.jpg&&&/figure&&p&其实这个积分性质最早是William Henry Young发现的。不过Fenchel在凸优化里面应用的出神入化！&/p&&figure&&img src=&https://pic4.zhimg.com/v2-c4ea0286e1dce013e2534e_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&273& data-rawheight=&326& class=&content_image& width=&273&&&/figure&&p&&b&Fenchel 不等式的巨大能力&/b&&/p&&p&&br&&/p&&p&Fenchel不等式的强大在于对一些对偶问题建立了统一的理论解释。 &/p&&p&譬如，学过SVM的朋友肯定知道Lagrange Duality 对偶方法。而且根据对偶的解释也知道了KKT条件（参考 &a href=&https://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzIzMjU1NTg3Ng%3D%3D%26mid%3D%26idx%3D1%26sn%3Df0da49bf1a6cee6fe6f37%26chksm%3De89250c6dfe5d9d0dc8aa652c0cbc9d854ef22d8eac597d0f0eeb780de90a6dc82f%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&一挑三 FJ vs KKT&/a& ）。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-a08b5cc98a65f6b0a783e949bcbad3ec_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&812& data-rawheight=&738& class=&origin_image zh-lightbox-thumb& width=&812& data-original=&https://pic1.zhimg.com/v2-a08b5cc98a65f6b0a783e949bcbad3ec_r.jpg&&&/figure&&p&之前，我们理解Lagrange对偶的方法，都是通过冯诺依曼的最小最大定理(von Neumann-Fan Minimax Theorem)来说明的：&/p&&figure&&img src=&https://pic3.zhimg.com/v2-2a98993cae41f8e25e4b4f8c77861aca_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&672& data-rawheight=&82& class=&origin_image zh-lightbox-thumb& width=&672& data-original=&https://pic3.zhimg.com/v2-2a98993cae41f8e25e4b4f8c77861aca_r.jpg&&&/figure&&p&但是没有解释Lagrange表达式是如何来的。也没有几何上的很好的解释。但是，通过Fenchel不等式就可以直观的解释这些。
那么，神奇的Lagrange表达式是如何来的呢？&/p&&figure&&img src=&https://pic1.zhimg.com/v2-2dbea5fb5e6f2a8ef676a_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&936& data-rawheight=&1016& class=&origin_image zh-lightbox-thumb& width=&936& data-original=&https://pic3.zhimg.com/v2-2dbea5fb5e6f2a8ef676a_r.jpg&&&/figure&&p&从上面，我们清楚的看到了Lagrange表达式是Fenchel对偶的演绎。既然是Fenchel对偶，那么就有Fenchel不等式成立。 &/p&&figure&&img src=&https://pic3.zhimg.com/v2-9d63b05cf14981e1dbfa7d840fa44695_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&500& data-rawheight=&494& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic2.zhimg.com/v2-9d63b05cf14981e1dbfa7d840fa44695_r.jpg&&&/figure&&p&再回到， Fenchel不等式理解什么时候等式成立的条件，又回到了Legendre变换和Fenchel共轭的的差异。再回过来体会， Lagrange对偶的成立条件。是不是一下子就联系起来了？&/p&&figure&&img src=&https://pic3.zhimg.com/v2-91cb1edbe73982fe42be_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&644& data-rawheight=&938& class=&origin_image zh-lightbox-thumb& width=&644& data-original=&https://pic3.zhimg.com/v2-91cb1edbe73982fe42be_r.jpg&&&/figure&&p&&b&Fenchel对偶&/b&&/p&&p&&br&&/p&&p&基于扰动函数的对偶&/p&&p&有了上面对Fenchel共轭的理解，那么我们就可以知道共轭的共轭，是对原来函数的一个凸闭包。当然，如果原来函数已经是凸函数了，那么共轭的共轭就是自己了。 &/p&&figure&&img src=&https://pic4.zhimg.com/v2-bf3d498eeecb997fca7b9_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1066& data-rawheight=&264& class=&origin_image zh-lightbox-thumb& width=&1066& data-original=&https://pic2.zhimg.com/v2-bf3d498eeecb997fca7b9_r.jpg&&&/figure&&p&如果我们把前面提到的Perturbation函数拿出来分析，而不去考虑后面具体的公式。我们可以看到强对偶和弱对偶的情况下的不一致。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-da80ff506a7d43c1acf1c20e7e59642d_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1443& data-rawheight=&933& class=&origin_image zh-lightbox-thumb& width=&1443& data-original=&https://pic2.zhimg.com/v2-da80ff506a7d43c1acf1c20e7e59642d_r.jpg&&&/figure&&figure&&img src=&https://pic7.zhimg.com/v2-cf644c0d900cfe_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&377& data-rawheight=&258& class=&content_image& width=&377&&&/figure&&p&假如我们直接基于Perturbation扰动函数，利用Fenchel共轭的关系开始建立对偶关系。详细的推理过程就省略了，大家有兴趣可以自己根据前面类似的过程，利用Fenchel不等式，推理一下。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-421bdaf879d9cb6c1834_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&504& data-rawheight=&334& class=&origin_image zh-lightbox-thumb& width=&504& data-original=&https://pic1.zhimg.com/v2-421bdaf879d9cb6c1834_r.jpg&&&/figure&&p&注意这里0点的选择，这也是为什么你看到的所有的对偶的图示里面，基本围绕扰动函数0点的值。 &/p&&p&&br&&/p&&p&Fenchel对偶&/p&&p&Fenchel对偶，可以看成是Lagrange对偶的一种应用。 &/p&&figure&&img src=&https://pic3.zhimg.com/v2-eb4a58c8c28_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&634& data-rawheight=&522& class=&origin_image zh-lightbox-thumb& width=&634& data-original=&https://pic1.zhimg.com/v2-eb4a58c8c28_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-1ed34bff81c2a86fa3d092_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&401& data-rawheight=&526& class=&content_image& width=&401&&&/figure&&p&&br&&/p&&p&当然，你也可以表示成两个函数的和的形式。只是，第二个函数在图示上，就变成了-f2(x)了。
&/p&&figure&&img src=&https://pic3.zhimg.com/v2-6cd78a6ff5cd400f1eed4e2a5cdbb8dd_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&382& data-rawheight=&256& class=&content_image& width=&382&&&/figure&&figure&&img src=&https://pic3.zhimg.com/v2-98d073fce2df15bfdf48bd7_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&698& data-rawheight=&536& class=&origin_image zh-lightbox-thumb& width=&698& data-original=&https://pic4.zhimg.com/v2-98d073fce2df15bfdf48bd7_r.jpg&&&/figure&&p&&br&&/p&&p&可以看到， Fenchel对偶的含义就是：&b&找到截距值差最大的那组平行切线。&/b& &/p&&p&&br&&/p&&p&&b&小结：&/b&&/p&&p&我们这里介绍了凸优化和对偶的中神通Fenchel，有了Fenchel，有了FJ，KKT（参考 &a href=&https://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzIzMjU1NTg3Ng%3D%3D%26mid%3D%26idx%3D1%26sn%3Df0da49bf1a6cee6fe6f37%26chksm%3De89250c6dfe5d9d0dc8aa652c0cbc9d854ef22d8eac597d0f0eeb780de90a6dc82f%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&一挑三 FJ vs KKT&/a&）等等就有了很强大的凸优化的工具集合了。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-df5bc83bc7010_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1502& data-rawheight=&822& class=&origin_image zh-lightbox-thumb& width=&1502& data-original=&https://pic1.zhimg.com/v2-df5bc83bc7010_r.jpg&&&/figure&&p&最后，这种扰动函数加切线闭包的思想，进一步衍生，可以把切线修改成切二次曲线，然后就会得到更为神奇的结论，是什么呢？
希望以后有时间具体描述。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-5bbea14d218f4d33c45faa03a366f08a_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&986& data-rawheight=&842& class=&origin_image zh-lightbox-thumb& width=&986& data-original=&https://pic3.zhimg.com/v2-5bbea14d218f4d33c45faa03a366f08a_r.jpg&&&/figure&&p&&br&&/p&&p&由于个人时间不够，难以深入太多！希望能够帮到您学习最深的人工智能和机器学习。&/p&&p&&br&&/p&&p&&b&附录： &/b&&/p&&p&&b&最优化之东邪西毒南帝北丐&/b& &/p&&p&东邪 Dimitri Bertsekas MIT &/p&&figure&&img src=&https://pic1.zhimg.com/v2-beb1bfc6cf_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&250& data-rawheight=&304& class=&content_image& width=&250&&&/figure&&p&西毒 Stephen P. Boyd
Stanford University&/p&&figure&&img src=&https://pic4.zhimg.com/v2-e399a05b22edfb2c0aaca83_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&397& data-rawheight=&443& class=&content_image& width=&397&&&/figure&&p&南帝 Andrzej Ruszczyński Rutgers University &/p&&figure&&img src=&https://pic4.zhimg.com/v2-c9ac850efd9c2_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&405& data-rawheight=&593& class=&content_image& width=&405&&&/figure&&p&&br&&/p&&p&北丐 Stephen J. Wright, University of Wisconsin&/p&&figure&&img src=&https://pic3.zhimg.com/v2-151bbcd255e5eb4f8d24_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&272& data-rawheight=&390& class=&content_image& width=&272&&&/figure&&p&&br&&/p&&p&郭靖 Mark Schmidt, University of British Columbia&/p&&figure&&img src=&https://pic4.zhimg.com/v2-ecd4df1eeb_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&441& data-rawheight=&554& class=&origin_image zh-lightbox-thumb& width=&441& data-original=&https://pic4.zhimg.com/v2-ecd4df1eeb_r.jpg&&&/figure&&p&&br&&/p&&p&中神通
Werner Fenchel&/p&&figure&&img src=&https://pic4.zhimg.com/v2-15a610b626c8d5807992fef049d8e34f_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&331& data-rawheight=&500& class=&content_image& width=&331&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&中顽童 Jean Jacques Moreau&/p&&figure&&img src=&https://pic2.zhimg.com/v2-ae294effa2_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&450& data-rawheight=&585& class=&origin_image zh-lightbox-thumb& width=&450& data-original=&https://pic3.zhimg.com/v2-ae294effa2_r.jpg&&&/figure&&p&&br&&/p&&p&参考：&/p&&p&&a href=&https://link.zhihu.com/?target=http%3A//aapt.scitation.org/doi/pdf/10.5320& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&aapt.scitation.org/doi/&/span&&span class=&invisible&&pdf/10.5320&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&&a href=&https://link.zhihu.com/?target=http%3A//odessa.phy.sdsmt.edu/%7Eandre/PHYS743/lfth2.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&odessa.phy.sdsmt.edu/~a&/span&&span class=&invisible&&ndre/PHYS743/lfth2.pdf&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&&a href=&https://link.zhihu.com/?target=https%3A//mli7.wordpress.com/2011/04/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&mli7.wordpress.com/2011&/span&&span class=&invisible&&/04/&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&&a href=&https://link.zhihu.com/?target=https%3A//opc.mfo.de/detail%3Fphoto_id%3D1094& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&opc.mfo.de/detail?&/span&&span class=&invisible&&photo_id=1094&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&&/p&
以这篇文章开始，我将跟大家分享多篇有关数学优化的原创文章。第一篇我们走进天下五绝之首，中神通Fenchel。前言Fenchel出生在德国柏林的犹太家庭，博士毕业于柏林大学。这个德国出生的年轻人的第一份工作就在哥廷根数学研究所(the Mathematical Institut…
&p&上接&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&机器学习模型设计五要素&/a&，这一篇接着讲模型结构设计&/p&&p&把DNN引入ctr预估无非看重两点：&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#1 改进模型结构，提高“信息利用率”，发现高阶非线性特征，挖掘以前挖不到潜在模式，比如DIN引入attention机制；
一般来说Embedding+MLP是标配。
#2 扩充“信息量”，把图片/文本这类不好处理的数据利用起来，比如DeepCTR；
&/code&&/pre&&/div&&p&&br&&/p&&h2&#0 RoadMap-搭积木&/h2&&figure&&img src=&https://pic1.zhimg.com/v2-edb1bf21c81c4caf03be1c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1147& data-rawheight=&787& class=&origin_image zh-lightbox-thumb& width=&1147& data-original=&https://pic1.zhimg.com/v2-edb1bf21c81c4caf03be1c_r.jpg&&&/figure&&p&除了图中主线之外，还有两个值得关注的地方：&/p&&blockquote&&b&embedding vector怎么融合？&/b&&/blockquote&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&* concatenate：wide&deep, DEF, DCM, DeepFM fk个节点
* inner/outer product：PNN inner/ fxfx1 or fxfxkxk个节点
* weighted sum：DIN, AFM; k个节点
* Bi-interaction：NFM先element-wise product再sum, AFM引入attention做 k个节点
&/code&&/pre&&/div&&p&&br&&/p&&blockquote&&b&与标准fc网络相比，embedding layer有什么特殊之处？&/b&&/blockquote&&ul&&li&上一层 → embedding&/li&&/ul&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&
-前向：标准fc网络站在hidden节点recv，embedding站在上一层节点send
-后向：仅更新非0节点网络参数
&/code&&/pre&&/div&&ul&&li&embedding → 下一层：&/li&&/ul&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&
-标准fc网络相当于作element-wise-add + activitation function变换
-embedding支持更多算子，比如inner/outer/concatenate/...
&/code&&/pre&&/div&&p&&br&&/p&&h2&#1 LR&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-09c0c9a25fafef41bbb82_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&148& data-rawheight=&198& class=&content_image& width=&148&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}：&u,a,c,y&
#f(x)：单层单节点的“DNN”, 宽而不深，深宽大战鄙视链的底端
|--参数量n+1
#loss：logloss/... + L1/L2/...
#optimizer：sgd/...
#evalution：logloss/auc/...
&/code&&/pre&&/div&&p&&br&&/p&&h2&#2 MF&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-c972ee438ae_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&367& data-rawheight=&414& class=&content_image& width=&367&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}：&u,a,y&
#f(x)：前半部分实际上就是DL embedding层
|--参数量(#users+#items)xK
#loss：rmse/... + L1/L2/...
#optimizer：sgd/...
#evalution：rmse/...
&/code&&/pre&&/div&&p&&br&&/p&&h2&#3 MLR = Embedding + MF + LR &/h2&&figure&&img src=&https://pic3.zhimg.com/v2-d8b2d71c0de25d7de8de_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&637& data-rawheight=&292& class=&origin_image zh-lightbox-thumb& width=&637& data-original=&https://pic3.zhimg.com/v2-d8b2d71c0de25d7de8de_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}：&u,a,c,y&
#f(x)：Embedding + MF + LR
|--参数量2mn
#loss：logloss + L21 + L1
#optimizer：
#evalution：auc
&/code&&/pre&&/div&&p&&br&&/p&&h2&#4 FM = LR + MF&/h2&&figure&&img src=&https://pic1.zhimg.com/v2-beeda50f39810_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1067& data-rawheight=&252& class=&origin_image zh-lightbox-thumb& width=&1067& data-original=&https://pic1.zhimg.com/v2-beeda50f39810_r.jpg&&&/figure&&figure&&img src=&https://pic4.zhimg.com/v2-098dc05dca6fa4c77d47_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&515& data-rawheight=&639& class=&origin_image zh-lightbox-thumb& width=&515& data-original=&https://pic4.zhimg.com/v2-098dc05dca6fa4c77d47_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}：&u,a,c,y&
#f(x)：FM = LR + MFs
|--参数量1+n(lr part) + nk(embedding part)
#loss：logloss/... + L1/L2/...
#optimizer：sgd/...
#evalution：logloss/auc/...
&/code&&/pre&&/div&&p&&br&&/p&&h2&#5 FNN = FM + MLP = LR + MF + MLP&/h2&&figure&&img src=&https://pic4.zhimg.com/v2-d9ffb1e0ffaedc7_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1680& data-rawheight=&812& class=&origin_image zh-lightbox-thumb& width=&1680& data-original=&https://pic4.zhimg.com/v2-d9ffb1e0ffaedc7_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}：&u,a,c,y&
#f(x)：FNN = FM + MLP, FM的基础上堆叠mlp, FM part pre-
|--参数量：1+n + nk(fm part) + (1+f+fk)xH1+H1xH2+H2x1(mlp part)
#loss：logloss
#optimizer：sgd/...
#evalution：logloss/auc/...
&/code&&/pre&&/div&&p&&br&&/p&&h2&#6 PNN = FNN + Product layer&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-e4503beed82c08bdba50401e6fddd2aa_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1460& data-rawheight=&904& class=&origin_image zh-lightbox-thumb& width=&1460& data-original=&https://pic3.zhimg.com/v2-e4503beed82c08bdba50401e6fddd2aa_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}：&u,a,c,y&
#f(x)：produc layer learn interactive patterns再送入mlp, addition acts like &OR& gate while multiplication acting like &AND& gate, and the product layer seems to learn rules other than features.
|--inner参数量: 1+n + nk(embedding part) + (fxk+fx(f-1)/2)xH1(product part) + H1xH2+H2x1(mlp part)
|--outer参数量: 1+n + nk(embedding part) + (fxk+fx(f-1)/2xkxk)xH1(product part) + H1xH2+H2x1(mlp part)
#loss：logloss + dropout
#optimizer：gd
#evalution：logloss/auc/rig/rmse
&/code&&/pre&&/div&&p&&br&&/p&&h2&#7 WDL = LR + Embedding + MLP&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-01deb843fdce25d17aaea1ac630edfce_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1559& data-rawheight=&369& class=&origin_image zh-lightbox-thumb& width=&1559& data-original=&https://pic3.zhimg.com/v2-01deb843fdce25d17aaea1ac630edfce_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}：&u,a,c,y&
#f(x)：LR + Embedding + MLP, embedding part跟MF前半部分一样, mlp part网络参数降到 f x K x #hiddens，
但是加上embedding layer（也需要训练更新）, 总参数并没有减少, 相当于把第一个隐含层单独拿出来特殊处理
|--好处：前向支持更多算子(concatenate/inner/outer/...)；后向每次迭代模型参数更新量降低了，相当于只更新非0的x
|--embedding layer参数如何更新：把输入层看做one hot encoding激活的那个节点，没画出来的都是0，更新按照链式法则展开即可（w = w- eta*delta*x
when x=1）
|--参数量1+n(wide-part) + nxk(embedding part) + fxkxH1+H1xH2+H2x1(mlp part)
#loss：logloss/... + L1/L2/...
#optimizer：wide part用FTRL+L1正则, deep part用的AdaGrad
#evalution：auc
&/code&&/pre&&/div&&p&&br&&/p&&h2&#8 DeepFM = FM + Embedding + MLP&/h2&&figure&&img src=&https://pic4.zhimg.com/v2-6e3bcd86ddc127eb4010b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&725& data-rawheight=&363& class=&origin_image zh-lightbox-thumb& width=&725& data-original=&https://pic4.zhimg.com/v2-6e3bcd86ddc127eb4010b_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}：&u,a,c,y&
#f(x)：wide part用FM取代LR, wide & deep part 共享embedding vector
|--参数量：1+n(fm part) + nxk(embedding part) + fxkxH1+H1xH2+H2x1(mlp part)
#loss：logloss/... + L1/L2/...
#optimizer：adam
#evalution：logloss/auc/...
&/code&&/pre&&/div&&p&&br&&/p&&h2&#9 NFM = LR + Embedding + Bi-Interaction Pooling + MLP&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-582ade4feb65a88be08192_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&513& data-rawheight=&345& class=&origin_image zh-lightbox-thumb& width=&513& data-original=&https://pic3.zhimg.com/v2-582ade4feb65a88be08192_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}：&u,a,c,y&
#f(x)：在embedding vector融合上做文章, 用Bi-Interaction pooling replace concatenation or sum/average，把layer参数量由fk -& k
|--参数量：1+n(lr part) + nxk(embedding part) + kxH1+H1xH2+...+Hlx1(mlp part)
#loss：squared loss/logloss/... + L1/L2/...
#optimizer：mini-batch Adagrad + dropout + Batch Normalization
#evalution：rmse
&/code&&/pre&&/div&&p&&br&&/p&&h2&#10 AFM = LR + Embedding + Attention + MLP&/h2&&figure&&img src=&https://pic2.zhimg.com/v2-f5f5d7be29c389bfafcecd_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&964& data-rawheight=&345& class=&origin_image zh-lightbox-thumb& width=&964& data-original=&https://pic2.zhimg.com/v2-f5f5d7be29c389bfafcecd_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}：&u,a,c,y&
#f(x)：引入attention net, 给FM中每个interaction一个权重aij
|--参数量：1+n(lr part) + nxk(embedding part) + kxH1+2H1(attention part) + kx1(mlp part)
#loss：squared loss/logloss/... + L1/L2/...
#optimizer：mini-batch Adagrad + dropout + L2
#evalution：rmse
&/code&&/pre&&/div&&p&&br&&/p&&h2&#11 DIN = Embedding + Attention + MLP&/h2&&figure&&img src=&https://pic2.zhimg.com/v2-c7dc038fce0adea6d13d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&825& data-rawheight=&487& class=&origin_image zh-lightbox-thumb& width=&825& data-original=&https://pic2.zhimg.com/v2-c7dc038fce0adea6d13d_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}：&u,a,c,y&
#f(x)：引入Local Activation假设（用户的兴趣很广泛，用户看到一个商品时只有部分兴趣激活），用attention机制对用户历史行为进行筛选
|--参数量：nxk(embedding part) + 计算距离,不需要参数/也可能是一个mlp (attention part) + fxkxH1+H1xH2+H2x1(mlp part)
#loss：logloss + L2/dropout/adaptive regularization
#optimizer：sgd/...
#evalution：GAUC
&/code&&/pre&&/div&&p&&br&&/p&&h2&#12 DeepCTR = CNN + Embedding + MLP&/h2&&figure&&img src=&https://pic1.zhimg.com/v2-df0ed786dfd29a3311b47c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&484& data-rawheight=&554& class=&origin_image zh-lightbox-thumb& width=&484& data-original=&https://pic1.zhimg.com/v2-df0ed786dfd29a3311b47c_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}：&u,a,c,y&，ad feature包含图片，扩大数据中的信息量
#f(x)：CNN + Embedding + MLP，CNN提取图片信息，embedding提取离散特征信息（K=128，把SFC隐含层看做embedding layer）
|--参数量：?(cnn part) + nxSFC(embedding part) + 256x256+256x1(mlp part)
#loss：logloss + L2
#optimizer：sgd+momentum+weight decay
#evalution：relative auc
&/code&&/pre&&/div&&p&&br&&/p&&h2&#13 Deep Crossing Model = Embedding + ResNet + LR&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-41cf9d8c70eba906b8552_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&625& data-rawheight=&457& class=&origin_image zh-lightbox-thumb& width=&625& data-original=&https://pic3.zhimg.com/v2-41cf9d8c70eba906b8552_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}：&q,a,c,y&，ad feature包含key words, title
#f(x)：Embedding + ResNet + LR, 用ResNet 代替 mlp
|--参数量：embedding part + resnet part + lr part
#loss：logloss
#optimizer：BMUF in CNTK
#evalution：auc
&/code&&/pre&&/div&&p&&br&&/p&&h2&#14 Deep Embedding Forest = Embedding + Forest&/h2&&figure&&img src=&https://pic2.zhimg.com/v2-44daab7ea22beb8d2505_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&506& data-rawheight=&390& class=&origin_image zh-lightbox-thumb& width=&506& data-original=&https://pic2.zhimg.com/v2-44daab7ea22beb8d2505_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}：&q,a,c,y&，ad feature包含key words, title
#f(x)：Embedding + Forest, 用forest代替Deep Crossing Model中的resnet+lr part, 可以明显降低在线预测服务时耗
|--参数量：embedding part + forest part
#loss：logloss
#optimizer：BMUF in CNTK + XgBoost/LightGBM
#evalution：logloss + predicting time
&/code&&/pre&&/div&&p&&br&&/p&&p&参考资料：&/p&&p&[1] Factorization Machines_Rendle2010&/p&&p&[2] LS-PLM:Large Scale Piecewise Linear Model&/p&&p&[3] Deep Learning over Multi-Field Categorical Data: A Case Study on User Response Prediction&/p&&p&[4] Product-based Neural Networks for User Response Prediction&/p&&p&[5] Wide & Deep Learning for Recommender Systems&/p&&p&[6] DeepFM: A Factorization-Machine based Neural Network for CTR Prediction&/p&&p&[7] Deep Interest Network for Click-Through Rate Prediction&/p&&p&[8] &a href=&http://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s/UzukJHlYvRKtYBeuLoApqg& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&独家 | 阿里盖坤演讲：从人工特征到深度学习，我们为了更准确地预估点击率都做了多少努力 ( 附PPT )&/a&&/p&&p&[9] Deep CTR Prediction in Display Advertising&/p&&p&[10] Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features&/p&&p&[11] Deep Embedding Forest: Forest-based Serving with Deep Embedding Features&/p&&p&[12] Neural Factorization Machines for Sparse Predictive Analytics&/p&&p&[13] Attentional Factorization Machines:Learning theWeight of Feature Interactions via Attention Networks&/p&
上接，这一篇接着讲模型结构设计把DNN引入ctr预估无非看重两点：#1 改进模型结构，提高“信息利用率”，发现高阶非线性特征，挖掘以前挖不到潜在模式，比如DIN引入attention机制；
一般来说Embedding+

最大似然算法华为里字母正上方的小尖角，怎么在word里面的式子里打出来？截图为书本里的式子截图。

我要回帖

更多关于最大似然估计算法的文章

随机推荐

最大似然算法 华为里字母正上方的小尖角，怎么在word里面的式子里打出来？截图为书本里的式子截图。

我要回帖

更多关于 最大似然估计算法 的文章

随机推荐

最大似然算法华为里字母正上方的小尖角，怎么在word里面的式子里打出来？截图为书本里的式子截图。

更多关于最大似然估计算法的文章