最大似然算法 华为里字母正上方的小尖角,怎么在word里面的式子里打出来?截图为书本里的式子截图。

数字右上角的小数字和小字母怎么打,还有右下角的怎么打?求助_百度知道
数字右上角的小数字和小字母怎么打,还有右下角的怎么打?求助
我有更好的答案
个比较直接的方法就是:先在你想要打的地方打上你想要的数字 然后右键打开字体,在那里面点√,即可。不管你想要哪种比如说要减号的那种还是光数字、在效果一栏里有个上标的空框
采纳率:44%
先用写字板,打上下角标,然后复制粘贴,或者输入法里特殊符号里应该有几个,但是不太多。
用数学公式编辑器,WORD里面有
1条折叠回答
为您推荐:
其他类似问题
您可能关注的内容
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。数学符号 word输入问题
在word里面怎么输入字母头顶上的那个小尖儿?_百度知道
数学符号 word输入问题
在word里面怎么输入字母头顶上的那个小尖儿?
如图的符号,怎么读,最好有英文的读法,一般代表什么,最重要的是在word里或者用MathType怎或者别的工具怎么输入?
我有更好的答案
division 分节号 ⊥ perpendicular to 垂直于 → arrow 箭号: a equals ba≠b ,数学公式中作multiply( parenleft, comma&书名号
∴ hence 所以 … ellipsis 省略号 ∷ equals, as (proportion) 等于:a isn' quote&quot,英文中省略字符用的撇号,音乐里作sharp:minus(negative负的)*:multiplied by÷;系数2
贝塔 磁通系数;角度;t equal to ba&b : a is much greater than ba≥b :lf
阿尔法 角度. period:序号 大写 小写 英文注音 国际音标注音 中文注音 意义1
α hyphen连字符; backslash 反斜杠| bar: be equal to≈ : be approximately equal to() : round brackets(parenthess)[] :divided by=;所有格符号% percent - dash 破折号 ‰ per mille∞ infinity 无限大号 ∝ varies as 与…成比例 ( ) parentheses 圆括号
√ (square) root 平方根 [ ] square brackets 方括号
∵ because 因为 《 》 French quotes 法文引号,opening parentheses) parenright? question
space 空格希腊字母读法; apostrophe 省略号使用公式编辑器^ 读做caret———————————————————————————————————+ : plus(positive正的)-,如C#$ dollar% percent^ caret& ampersand* asterisk,star(美语);系数3
伽马 电导系数(小写)4
德尔塔 变动;密度;屈光度5
伊普西龙 对数之基数6
截塔 系数;方位角;阻抗;相对粘度;原子序数7
艾塔 磁滞系数;效率(小写)8
西塔 温度;相位角9
约塔 微小,一点儿10
卡帕 介质常数11
兰布达 波长(小写);体积12
缪 磁导系数;微(千分之一);放大因数(小写)13
纽 磁阻系数14
奥密克戎16
派 圆周率=圆周÷直径=3.1416 17
肉 电阻系数(小写)18
西格马 总和(大写),表面密度;跨导(小写)19
套 时间常数20
宇普西龙 位移21
佛爱 磁通;角22
普西 角速;介质电通量(静电力线);角24
欧米伽 欧姆(大写);角速(小写);角: a is greater than ba&& less& greater,成比例 ¨ tandem colon 双点号∠ angle 角 ∶ ditto 双点号⌒ semicircle 半圆 ‖ parallel 双线号 ⊙ circle 圆 / virgule 斜线号
○ circumference 圆周~ swung dash 代字号 △ triangle 三角形 § section: less than or equal to≥ :greater than or equal to∞:infinityf(x) : the function of xdx : diffrencial of xx+y : x plus y(a+b) : bracket a plus b bracket closeda=b ,closing paretheses- doublequote/ slash\ semicolon: colon&#39,不读_ underscore+ plus= equal[ bracketleft,opening bracket] bracketright,closing bracket{ braceleft} braceright: a is greater than or equal to bx→∞ :x approches infinity< is less than> is more than≮ is not less than
≯ is not more than≤ is less than or equal to 小于或等于号 - hyphen 连字符
≥ is more than or equal to 大于或等于号 '参见号 ∪ union of 并,合集∩ intersection of 交,通集
∫ the integral of …的积分 ± plus or minus 正负号 ∑ summation of 总和 × is multiplied by 乘号 ° degree 度 ÷ is divided by 除号
′ minute 分〃 second 秒 ≠ is not equal to 不等于号
≡ is equivalent to 全等于号
℃ Celsius degree 摄氏度 ≌ is equal to or approximately equal to 等于或约等于号计算机编成常用符号英语读音` backquote 反引号~ tilde! exclam@ at# numbersign,英语国家是hash,美语是pound: because∴ : therefore≤ : braces∵ : square brackets{}
用公式编辑器做吧
为您推荐:
其他类似问题
数学符号的相关知识
换一换
回答问题,赢新手礼包
个人、企业类
违法有害信息,请在下方选择后提交
色情、暴力
我们会通过消息、邮箱等方式尽快将举报结果通知您。&p&高能预警:本文涉及大量的数学推导,如有不适,概不负责。&/p&&h2&回归问题与平方误差和&/h2&&p&在回归问题(regression problems)中,我们常用平方误差和(sum of squares)来衡量模型的好坏。&/p&&p&回归问题可以定义如下:&/p&&p&给定一个包含&img src=&http://www.zhihu.com/equation?tex=N& alt=&N& eeimg=&1&& 个数据的训练集 &img src=&http://www.zhihu.com/equation?tex=%5Cmathbb+x%5Cequiv%5C%7Bx_1%2Cx_2%2C%5Cdots%2Cx_N%5C%7D& alt=&\mathbb x\equiv\{x_1,x_2,\dots,x_N\}& eeimg=&1&& ,以及这些数据对应的目标值 &img src=&http://www.zhihu.com/equation?tex=%5Cmathbb+t%3D%5C%7Bt_1%2Ct_2%2C%5Cdots%2Ct_N%5C%7D& alt=&\mathbb t=\{t_1,t_2,\dots,t_N\}& eeimg=&1&& ,回归问题的目标是利用这组训练集,寻找一个合适的模型,来预测一个新的数据点 &img src=&http://www.zhihu.com/equation?tex=%5Chat+x& alt=&\hat x& eeimg=&1&& 对应的目标值 &img src=&http://www.zhihu.com/equation?tex=%5Chat+t& alt=&\hat t& eeimg=&1&& 。记模型的参数为 &img src=&http://www.zhihu.com/equation?tex=w+& alt=&w & eeimg=&1&& ,模型对应的函数为 &img src=&http://www.zhihu.com/equation?tex=y& alt=&y& eeimg=&1&& ,模型的预测值可以相应表示为 &img src=&http://www.zhihu.com/equation?tex=y%28x%2Cw%29& alt=&y(x,w)& eeimg=&1&& 。&/p&&p&为了衡量模型的好坏,需要一种方法衡量预测值与目标值之间的误差,一个常用的选择是平方误差和:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=E%28w%29%3D%5Cfrac12%5Csum_%7Bn%3D1%7D%5EN%5C%7By%28x_n%2Cw%29-t_n%5C%7D%5E2& alt=&E(w)=\frac12\sum_{n=1}^N\{y(x_n,w)-t_n\}^2& eeimg=&1&&&/p&&p&平方误差和函数可以看成是每个数据点 &img src=&http://www.zhihu.com/equation?tex=x_n& alt=&x_n& eeimg=&1&& 的预测值 &img src=&http://www.zhihu.com/equation?tex=y%28x_n%2Cw%29& alt=&y(x_n,w)& eeimg=&1&& 到真实目标值 &img src=&http://www.zhihu.com/equation?tex=t_n& alt=&t_n& eeimg=&1&& 的误差平方和的一半。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-b2f83c54d5f5eadf4c79_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&708& data-rawheight=&540& class=&origin_image zh-lightbox-thumb& width=&708& data-original=&https://pic2.zhimg.com/v2-b2f83c54d5f5eadf4c79_r.jpg&&&/figure&&p&不同的参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 对应于不同的误差函数 &img src=&http://www.zhihu.com/equation?tex=E%28w%29& alt=&E(w)& eeimg=&1&& ,因此,回归问题的目标通常是找到一组参数 &img src=&http://www.zhihu.com/equation?tex=w%5E%5Cstar& alt=&w^\star& eeimg=&1&& 使得误差函数 &img src=&http://www.zhihu.com/equation?tex=E%28w%29& alt=&E(w)& eeimg=&1&& 最小化。&/p&&p&那么最小化 &img src=&http://www.zhihu.com/equation?tex=E%28w%29+& alt=&E(w) & eeimg=&1&& 究竟有什么意义呢?&/p&&p&在回答这个问题之前,我们需要先复习一下概率知识。&/p&&h2&贝叶斯概率&/h2&&p&先复习一下与条件概率相关的贝叶斯公式:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28x%7Cy%29%3D%5Cfrac%7Bp%28y%7Cx%29p%28x%29%7D%7Bp%28y%29%7D& alt=&p(x|y)=\frac{p(y|x)p(x)}{p(y)}& eeimg=&1&&&/p&&p&对于回归问题来说,如果我们记训练集为 &img src=&http://www.zhihu.com/equation?tex=%5Cmathcal+D& alt=&\mathcal D& eeimg=&1&& ,那么对于模型参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&&来说,贝叶斯公式给出:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28w%7C%5Cmathcal+D%29%3D%5Cfrac%7Bp%28%5Cmathcal+D%7Cw%29p%28w%29%7D%7Bp%28%5Cmathcal+D%29%7D& alt=&p(w|\mathcal D)=\frac{p(\mathcal D|w)p(w)}{p(\mathcal D)}& eeimg=&1&&&/p&&p&其中 &img src=&http://www.zhihu.com/equation?tex=p%28w%29& alt=&p(w)& eeimg=&1&& 表示的是参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的先验(prior)分布; &img src=&http://www.zhihu.com/equation?tex=p%28%5Cmathcal+D%7Cw%29& alt=&p(\mathcal D|w)& eeimg=&1&& 给定参数为 &img src=&http://www.zhihu.com/equation?tex=w+& alt=&w & eeimg=&1&& 的情况下,训练数据为 &img src=&http://www.zhihu.com/equation?tex=%5Cmathcal+D& alt=&\mathcal D& eeimg=&1&& 的可能性,我们也可以把它看成一个关于 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的函数,这个函数叫做似然函数(likelihood function); &img src=&http://www.zhihu.com/equation?tex=p%28w%7C%5Cmathcal+D%29& alt=&p(w|\mathcal D)& eeimg=&1&& 是参数 &img src=&http://www.zhihu.com/equation?tex=w+& alt=&w & eeimg=&1&& 在给定数据 &img src=&http://www.zhihu.com/equation?tex=%5Cmathcal+D& alt=&\mathcal D& eeimg=&1&& 下的后验(posterior)分布。&/p&&p&给定这些定义,贝叶斯公式可以表示成:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Ctext%7Bposterior%7D+%5Cpropto+%5Ctext%7Blikelihood%7D%5Ctimes%5Ctext%7Bprior%7D& alt=&\text{posterior} \propto \text{likelihood}\times\text{prior}& eeimg=&1&&&/p&&p&即后验正比于似然乘以先验。&/p&&p&似然函数是一个非常重要的概念。通过极大似然函数 &img src=&http://www.zhihu.com/equation?tex=p%28%5Cmathcal+D%7Cw%29& alt=&p(\mathcal D|w)& eeimg=&1&& ,我们可以找到一个最优的参数 &img src=&http://www.zhihu.com/equation?tex=w%5E%5Cstar& alt=&w^\star& eeimg=&1&&,使得在这组参数设定下,出现训练数据 &img src=&http://www.zhihu.com/equation?tex=%5Cmathcal+D& alt=&\mathcal D& eeimg=&1&& 的可能性 &img src=&http://www.zhihu.com/equation?tex=p%28%5Cmathcal+D%7Cw%29& alt=&p(\mathcal D|w)& eeimg=&1&& 最大。这组参数在统计上叫做参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的极大似然估计。&/p&&h2&极大似然与回归问题&/h2&&p&早在上初中的时候,我们就学到了在做实验时,需要多次测量取平均来减少误差的道理。我们也知道,误差会来自两个部分:系统误差和随机误差。通过多次测量能够减少随机误差,但是不能减少系统误差,所以测量误差是不可避免的。&/p&&p&同样道理,在回归问题中, &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& 的测量值 &img src=&http://www.zhihu.com/equation?tex=t& alt=&t& eeimg=&1&& 会存在一定的误差。&/p&&p&假定对所有的数据点 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& ,模型预测值 &img src=&http://www.zhihu.com/equation?tex=y%28x%2Cw%29+& alt=&y(x,w) & eeimg=&1&& 与目标值 &img src=&http://www.zhihu.com/equation?tex=t& alt=&t& eeimg=&1&& 之间的误差是一样的,并服从一定的概率分布,比如均值为0,方差为 &img src=&http://www.zhihu.com/equation?tex=%5Cbeta%5E%7B-1%7D%3D%5Csigma%5E2& alt=&\beta^{-1}=\sigma^2& eeimg=&1&& 的高斯分布,则有:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28t-y%28x%2Cw%29%7Cx%2Cw%2C%5Cbeta%29+%5Csim+%5Cmathcal+N%28t-y%28x%2Cw%29%7C0%2C%5Cbeta%5E%7B-1%7D%29& alt=&p(t-y(x,w)|x,w,\beta) \sim \mathcal N(t-y(x,w)|0,\beta^{-1})& eeimg=&1&&&/p&&p&即:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28t%7Cx%2Cw%2C%5Cbeta%29%5Csim%5Cmathcal+N%28t%7Cy%28x%2Ct%29%2C%5Cbeta%5E%7B-1%7D%29& alt=&p(t|x,w,\beta)\sim\mathcal N(t|y(x,t),\beta^{-1})& eeimg=&1&&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-bae85f6dfd8ca0fc64d49_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&846& data-rawheight=&563& class=&origin_image zh-lightbox-thumb& width=&846& data-original=&https://pic2.zhimg.com/v2-bae85f6dfd8ca0fc64d49_r.jpg&&&/figure&&p&对于一组独立同分布的数据点 &img src=&http://www.zhihu.com/equation?tex=%5Cmathbb+x%5Cequiv%5C%7Bx_1%2Cx_2%2C%5Cdots%2Cx_N%5C%7D& alt=&\mathbb x\equiv\{x_1,x_2,\dots,x_N\}& eeimg=&1&& ,以及这些数据对应的目标值 &img src=&http://www.zhihu.com/equation?tex=%5Cmathbb+t%3D%5C%7Bt_1%2Ct_2%2C%5Cdots%2Ct_N%5C%7D& alt=&\mathbb t=\{t_1,t_2,\dots,t_N\}& eeimg=&1&& ,我们得到关于这组数据的似然函数:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28%5Cmathsf+t%7C%5Cmathsf+x%2Cw%2C%5Cbeta%5E%7B-1%7D%29%3D%5Cprod_%7Bn%3D1%7D%5EN+p%28t_n%7Cx_n%2Cw%2C%5Cbeta%5E%7B-1%7D%29%3D%5Cprod_%7Bn%3D1%7D%5EN+%5Cmathcal+N%28t_n%7Cy%28x_n%2Cw%29%2C%5Cbeta%5E%7B-1%7D%29& alt=&p(\mathsf t|\mathsf x,w,\beta^{-1})=\prod_{n=1}^N p(t_n|x_n,w,\beta^{-1})=\prod_{n=1}^N \mathcal N(t_n|y(x_n,w),\beta^{-1})& eeimg=&1&&&/p&&p&其中,高斯分布的概率函数为:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=N%28t%7Cy%28x%2Ct%29%2C%5Cbeta%5E%7B-1%7D%29%3D%5Cleft%28%5Cfrac%7B%5Cbeta%7D%7B2%5Cpi%7D%5Cright%29%5E%7B%5Cfrac+12%7D%5Cexp+%5Cleft%5C%7B-%5Cfrac%7B%5Cbeta%7D+2%5Cleft%5Bt-y%28x%2Cw%29%5Cright%5D%5E2%5Cright%5C%7D& alt=&N(t|y(x,t),\beta^{-1})=\left(\frac{\beta}{2\pi}\right)^{\frac 12}\exp \left\{-\frac{\beta} 2\left[t-y(x,w)\right]^2\right\}& eeimg=&1&&&/p&&p&可以通过极大化这个似然函数得到关于 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的一组极大似然解。&/p&&p&不过,更方便的做法是极大对数似然函数,因为对数函数是严格单增的,所以极大对数似然的解与极大似然的解是相同的。&/p&&p&对数似然函数为:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cln+p%28%5Cmathsf+t%7C%5Cmathsf+x%2Cw%2C%5Cbeta%5E%7B-1%7D%29%3D-%5Cfrac%7B%5Cbeta%7D%7B2%7D%5Csum_%7Bn%3D1%7D%5EN%5C%7By%28x_n%2Cw%29-t%5C%7D%5E2%2B%5Cfrac+N+2%5Cln+%5Cbeta-%5Cfrac+N+2%5Cln+2%5Cpi& alt=&\ln p(\mathsf t|\mathsf x,w,\beta^{-1})=-\frac{\beta}{2}\sum_{n=1}^N\{y(x_n,w)-t\}^2+\frac N 2\ln \beta-\frac N 2\ln 2\pi& eeimg=&1&&&/p&&p&如果我们不考虑 &img src=&http://www.zhihu.com/equation?tex=%5Cbeta+& alt=&\beta & eeimg=&1&& 的影响,那么,对于参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 来说,最小化平方误差和的解,就等于极大对数似然的估计。&/p&&p&因此,最小化平方误差和 &img src=&http://www.zhihu.com/equation?tex=E%28w%29& alt=&E(w)& eeimg=&1&& 与极大似然等价,考虑到似然函数的定义,优化 &img src=&http://www.zhihu.com/equation?tex=E%28w%29& alt=&E(w)& eeimg=&1&& 相当于在给定高斯误差的假设下,寻找一组 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 使得观察到目标值t的概率最大。&/p&&h2&分类问题与交叉熵损失&/h2&&p&现在考虑另一类问题——分类问题。&/p&&p&我们同样给出定义:&/p&&p&给定一个包含&img src=&http://www.zhihu.com/equation?tex=N& alt=&N& eeimg=&1&& 个数据样本的训练集 &img src=&http://www.zhihu.com/equation?tex=%5Cmathbb+x%5Cequiv%5C%7Bx_1%2Cx_2%2C%5Cdots%2Cx_N%5C%7D& alt=&\mathbb x\equiv\{x_1,x_2,\dots,x_N\}& eeimg=&1&& ,以及这些数据对应的类别 &img src=&http://www.zhihu.com/equation?tex=%5Cmathbb+t%3D%5C%7Bt_1%2Ct_2%2C%5Cdots%2Ct_N%5C%7D& alt=&\mathbb t=\{t_1,t_2,\dots,t_N\}& eeimg=&1&& ,这里, &img src=&http://www.zhihu.com/equation?tex=t_n%5Cin%5C%7B1%2C2%2C%5Cdots%2CK%5C%7D& alt=&t_n\in\{1,2,\dots,K\}& eeimg=&1&& ,分类问题的目标是利用这组训练集,寻找一个合适的模型,来预测一个新的数据点 &img src=&http://www.zhihu.com/equation?tex=%5Chat+x& alt=&\hat x& eeimg=&1&& 对应的类别 &img src=&http://www.zhihu.com/equation?tex=%5Chat+t& alt=&\hat t& eeimg=&1&& 。现在假设模型的参数为 &img src=&http://www.zhihu.com/equation?tex=w+& alt=&w & eeimg=&1&& ,模型输出是属于每一类的概率,预测为第 &img src=&http://www.zhihu.com/equation?tex=k%5Cin+%5C%7B1%2C2%2C%5Cdots%2CK%5C%7D& alt=&k\in \{1,2,\dots,K\}& eeimg=&1&& 类的概率为 &img src=&http://www.zhihu.com/equation?tex=p%28k%7Cx%2Cw%29& alt=&p(k|x,w)& eeimg=&1&& 。&/p&&p&对于样本 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& ,其属于第 &img src=&http://www.zhihu.com/equation?tex=t& alt=&t& eeimg=&1&& 类的概率为:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28t%7Cx%2Cw%29%3D%5Cprod_%7Bk%3D1%7D%5EK+p%28y%3Dt%7Cx%2Cw%29%5E%7B1_%7Bt%3Dk%7D%7D& alt=&p(t|x,w)=\prod_{k=1}^K p(y=t|x,w)^{1_{t=k}}& eeimg=&1&&&/p&&p&其中, &img src=&http://www.zhihu.com/equation?tex=1_%7Bt%3Dk%7D%3D%5Cleft%5C%7B%5Cbegin%7Balign%7D+%261%2C+%26+t%3Dk%5C%5C+%260%2C+%26+t%5Cneq+k%5C%5C+%5Cend%7Balign%7D%5Cright.& alt=&1_{t=k}=\left\{\begin{align} &1, & t=k\\ &0, & t\neq k\\ \end{align}\right.& eeimg=&1&&
。&/p&&p&因此,似然函数为:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28%5Cmathsf+t%7C%5Cmathsf+x%2C+w%29%3D%5Cprod_%7Bn%3D1%7D%5EN%28%5Cprod_%7Bk%3D1%7D%5EK+p%28t_n%7Cx_n%2Cw%29%5E%7B1_%7Bt%3Dk%7D%7D+%29& alt=&p(\mathsf t|\mathsf x, w)=\prod_{n=1}^N(\prod_{k=1}^K p(t_n|x_n,w)^{1_{t=k}} )& eeimg=&1&&&/p&&p&对数似然为:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cln+p%28t%7Cx%2Cw%29%3D%5Csum_%7Bn%3D1%7D%5EN+%5Csum_%7Bk%3D1%7D%5EK+1_%7Bt%3Dk%7D%5Clog+p%28t_n%7Cx_n%2Cw%29& alt=&\ln p(t|x,w)=\sum_{n=1}^N \sum_{k=1}^K 1_{t=k}\log p(t_n|x_n,w)& eeimg=&1&&&/p&&p&极大化对数似然,相当于极小化:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=-%5Csum_%7Bn%3D1%7D%5EN+%5Csum_%7Bk%3D1%7D%5EK+1_%7Bt%3Dk%7D%5Clog+p%28t_n%7Cx_n%2Cw%29& alt=&-\sum_{n=1}^N \sum_{k=1}^K 1_{t=k}\log p(t_n|x_n,w)& eeimg=&1&&&/p&&p&事实上,这正是我们常使用的多类交叉熵损失函数的表示形式。&/p&&p&因此,在分类问题中,最小化交叉熵损失函数相当与极大样本的似然函数。&/p&&h2&正则项&/h2&&p&在优化目标函数时,除了正常的损失函数外,为了防止过拟合,我们通常会加入一些正则项,比如权值衰减(weight decay),lasso等等。&/p&&p&比如,在回归问题中,使用权值衰减后,目标函数可能是:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=E%28w%29%3D%5Cfrac+1+2%5Csum_%7Bn%3D1%7D%5EN%5C%7By%28x_n%2Cw%29-t%5C%7D%5E2+%2B%5Clambda+w%5E%5Ctop+w& alt=&E(w)=\frac 1 2\sum_{n=1}^N\{y(x_n,w)-t\}^2 +\lambda w^\top w& eeimg=&1&&&/p&&p&这里,我们假定 &img src=&http://www.zhihu.com/equation?tex=w+& alt=&w & eeimg=&1&& 可以被拉长表示为一个一维向量。&/p&&p&此时,优化这个目标函数就不能用极大似然来解释了。&/p&&p&不过,如果我们观察贝叶斯公式:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28w%7C%5Cmathcal+D%29%3D%5Cfrac%7Bp%28%5Cmathcal+D%7Cw%29p%28w%29%7D%7Bp%28%5Cmathcal+D%29%7D& alt=&p(w|\mathcal D)=\frac{p(\mathcal D|w)p(w)}{p(\mathcal D)}& eeimg=&1&&&/p&&p&以及:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Ctext%7Bposterior%7D+%5Cpropto+%5Ctext%7Blikelihood%7D%5Ctimes%5Ctext%7Bprior%7D& alt=&\text{posterior} \propto \text{likelihood}\times\text{prior}& eeimg=&1&&&/p&&p&我们会发现,如果对两边取对数,那么有:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cln+p%28w%7C%5Cmathcal+D%29+%3D+%5Cln+p%28%5Cmathcal+D%7Cw%29%2B+%5Cln+p%28w%29+%2B+const& alt=&\ln p(w|\mathcal D) = \ln p(\mathcal D|w)+ \ln p(w) + const& eeimg=&1&&&/p&&p&那么,我们加入的正则项,是不是对应于 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的先验分布 &img src=&http://www.zhihu.com/equation?tex=p%28w%29& alt=&p(w)& eeimg=&1&& 呢?&/p&&p&答案当然是肯定的。&/p&&p&如果给出参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的先验,那么极大后验估计(Maximize a Posterior, MAP)是能给出类似带正则项目标函数 &img src=&http://www.zhihu.com/equation?tex=E%28w%29+& alt=&E(w) & eeimg=&1&& 的结构的。&/p&&p&问题是什么样的先验会给出类似权值衰减的正则项呢?&/p&&p&一个通常的想法是我们认为参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 服从的先验分布是一个均值0,方差 &img src=&http://www.zhihu.com/equation?tex=%5Calpha%5E%7B-1%7DI& alt=&\alpha^{-1}I& eeimg=&1&& 的D维高斯分布,那么,我们有:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28w%7C%5Calpha%29%3D%5Cmathcal+N%280%2C%5Calpha%5E%7B-1%7DI%29%3D%5Cleft%28%5Cfrac%7B%5Calpha%7D%7B2%5Cpi%7D+%5Cright%29%5E%7B%5Cfrac+D+2%7D+%5Cexp+%5Cleft%5C%7B-%5Cfrac+%5Calpha+2+w%5E%5Ctop+w+%5Cright%5C%7D& alt=&p(w|\alpha)=\mathcal N(0,\alpha^{-1}I)=\left(\frac{\alpha}{2\pi} \right)^{\frac D 2} \exp \left\{-\frac \alpha 2 w^\top w \right\}& eeimg=&1&&&/p&&p&其对数为:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cln+p%28w%7C%5Calpha%29%3D-%5Cfrac+%5Calpha2+w%5E%5Ctop+w+%2B+const& alt=&\ln p(w|\alpha)=-\frac \alpha2 w^\top w + const& eeimg=&1&&&/p&&p&结合我们之前的推导,我们有: &img src=&http://www.zhihu.com/equation?tex=%5Cln+p%28w%7C%5Cmathsf+t%2C+%5Cmathsf+x%2C%5Cbeta%2C%5Calpha%29%3D%5Cln+p%28%5Cmathsf+t%7C%5Cmathsf+x%2Cw%2C%5Cbeta%29+%2B+%5Cln+p%28w%7C%5Calpha%29%3D-%5Cfrac+%5Cbeta+2%5Csum_%7Bn%3D1%7D%5EN%5C%7By%28x_n%2Cw%29-t%5C%7D%5E2+-%5Cfrac+%5Calpha+2+w%5E%5Ctop+w+%2B+const& alt=&\ln p(w|\mathsf t, \mathsf x,\beta,\alpha)=\ln p(\mathsf t|\mathsf x,w,\beta) + \ln p(w|\alpha)=-\frac \beta 2\sum_{n=1}^N\{y(x_n,w)-t\}^2 -\frac \alpha 2 w^\top w + const& eeimg=&1&&&/p&&p&因此,加权值衰减的正则与高斯分布先验下极大后验估计的结果一致。&/p&&p&对于分类问题,该结论依然成立。&/p&&h2&为什么是高斯分布?&/h2&&p&我们已经将解释了目标函数中,优化某些损失函数和正则项的意义。在解释更多的损失函数和正则项之前,需要先解决一个问题。&/p&&p&为什么是高斯分布?怎么老是高斯分布?&/p&&p&先给出结论:&/p&&p&对于一个连续随机变量 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& ,在给定均值和方差的约束下,交叉信息熵最大的分布是高斯分布。&/p&&p&熵是描述系统混乱度的概念,热力学第二定律告诉我们,在没有外力作用时,熵总是趋于自增的,因此,上面的结论告诉我们,生活中很多现象服从高斯分布并不是偶然。&/p&&p&先引出信息熵的概念。&/p&&p&先考虑一个离散随机变量 &img src=&http://www.zhihu.com/equation?tex=X& alt=&X& eeimg=&1&&,给定一个该随机变量的观察值 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& ,希望用一个函数 &img src=&http://www.zhihu.com/equation?tex=h%28x%29& alt=&h(x)& eeimg=&1&& 去衡量 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& 所携带的信息量。一般来说,如果 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& 是一件概率很低的事情,那么我们会觉得它很有信息量,反之,如果 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& 是一件经常发生的事情,那么我们会觉得信息量很少。因此,信息量会和 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& 发生的概率 &img src=&http://www.zhihu.com/equation?tex=p%28x%29& alt=&p(x)& eeimg=&1&& 相关。&/p&&p&另一方面,我们认为,如果两个事件 &img src=&http://www.zhihu.com/equation?tex=x& alt=&x& eeimg=&1&& 和 &img src=&http://www.zhihu.com/equation?tex=y& alt=&y& eeimg=&1&& 是相互独立的,那么,我们认为两者携带的信息量是各自信息量之和:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=h%28x%2Cy%29%3Dh%28x%29%2Bh%28y%29& alt=&h(x,y)=h(x)+h(y)& eeimg=&1&&&/p&&p&另一方面。独立性给出:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28x%2Cy%29%3Dp%28x%29p%28y%29& alt=&p(x,y)=p(x)p(y)& eeimg=&1&&&/p&&p&再考虑约束,当 &img src=&http://www.zhihu.com/equation?tex=p%28x%29%3D1& alt=&p(x)=1& eeimg=&1&& 时, &img src=&http://www.zhihu.com/equation?tex=h%28x%29%3D0& alt=&h(x)=0& eeimg=&1&& ,不难看出,符合条件的是概率密度的对数函数,不妨定义为:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=h%28x%29%3D-%5Clog_2+p%28x%29& alt=&h(x)=-\log_2 p(x)& eeimg=&1&&&/p&&p&这里,使用2为底的对数并不是必须的,也可以使用其他底。不过使用2为底,信息的单位就变成了bit。&/p&&p&对于一个离散分布 &img src=&http://www.zhihu.com/equation?tex=X& alt=&X& eeimg=&1&& 来说,其信息的期望为:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=H%5Bx%5D%3D-%5Csum_x+p%28x%29%5Clog_2+p%28x%29& alt=&H[x]=-\sum_x p(x)\log_2 p(x)& eeimg=&1&&&/p&&p&我们把 &img src=&http://www.zhihu.com/equation?tex=H%5Bx%5D& alt=&H[x]& eeimg=&1&& 叫做这个随机变量的熵。&/p&&p&比如说,对于一个等概率,取值为8个的离散分布,其熵为:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=H%3D-8%5Ctimes%5Cfrac+1+8+%5Ctimes+%5Clog+%5Cfrac+1+8%3D+3%7Ebits& alt=&H=-8\times\frac 1 8 \times \log \frac 1 8= 3~bits& eeimg=&1&&&/p&&p&3比特正是用2进制表示这8个值所需要的大小。&/p&&p&再比如说,考虑取值为 &img src=&http://www.zhihu.com/equation?tex=a%2Cb%2Cc%2Cd& alt=&a,b,c,d& eeimg=&1&& ,概率为: &img src=&http://www.zhihu.com/equation?tex=%5Cfrac+1+2%2C+%5Cfrac+1+4%2C+%5Cfrac+1+8%2C+%5Cfrac+1+8& alt=&\frac 1 2, \frac 1 4, \frac 1 8, \frac 1 8& eeimg=&1&& 的分布,其熵为:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=H%3D-%5Cfrac+1+2%5Clog_2+%5Cfrac12-%5Cfrac+1+4%5Clog_2+%5Cfrac14-2%5Ctimes%5Cfrac+1+8%5Clog_2+%5Cfrac18%3D1.75%7Ebits& alt=&H=-\frac 1 2\log_2 \frac12-\frac 1 4\log_2 \frac14-2\times\frac 1 8\log_2 \frac18=1.75~bits& eeimg=&1&&&/p&&p&而这正是用霍夫曼编码a:0,b:10,c:110,d:111表示这四个值的平均比特大小。&/p&&p&除了以2为底,我们还可以以其他对数为底,比如自然对数:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=H%5Bp%5D%3D-%5Csum_xp%28x%29%5Cln+p%28x%29& alt=&H[p]=-\sum_xp(x)\ln p(x)& eeimg=&1&&&/p&&p&连续分布:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=H%5Bp%5D%3D-%5Cint_x+p%28x%29%5Cln+p%28x%29+dx& alt=&H[p]=-\int_x p(x)\ln p(x) dx& eeimg=&1&&&/p&&p&现在假设某个分布满足:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cint_x+p%28x%29dx%3D1& alt=&\int_x p(x)dx=1& eeimg=&1&&&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cint_x+xp%28x%29dx%3D%5Cmu& alt=&\int_x xp(x)dx=\mu& eeimg=&1&&&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cint_x+%28x-%5Cmu%29%5E2p%28x%29dx%3D%5Csigma%5E2& alt=&\int_x (x-\mu)^2p(x)dx=\sigma^2& eeimg=&1&&&/p&&p&在这些假设下,为了使 &img src=&http://www.zhihu.com/equation?tex=H%5Bp%5D+& alt=&H[p] & eeimg=&1&& 最大,其Lagrange函数为:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=-%5Cint_x+p%28x%29%5Cln+p%28x%29+dx+%2B%5Clambda_1%28%5Cint_x+p%28x%29ds-1%29+%2B%5Clambda_2%28%5Cint_xxp%28x%29dx-%5Cmu%29+%2B%5Clambda_3%28%5Cint_x+%28x-%5Cmu%29%5E2p%28x%29dx-%5Csigma%5E2%29& alt=&-\int_x p(x)\ln p(x) dx +\lambda_1(\int_x p(x)ds-1) +\lambda_2(\int_xxp(x)dx-\mu) +\lambda_3(\int_x (x-\mu)^2p(x)dx-\sigma^2)& eeimg=&1&&&/p&&p&即:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cint_x+%5B-p%5Cln+p%2B%5Clambda_1+p%2B%5Clambda_2xp%2B%5Clambda_3%28x-%5Cmu%5E2%29p%5D%7Edx+%2B+const+%3D+%5Cint_x+G%28p%2C+x%29dx+%2B+const& alt=&\int_x [-p\ln p+\lambda_1 p+\lambda_2xp+\lambda_3(x-\mu^2)p]~dx + const = \int_x G(p, x)dx + const& eeimg=&1&&&/p&&p&利用变分法中的欧拉-拉格朗日方程&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cfrac+%7B%5Cpartial+G%7D%7B%5Cpartial+p%7D-%5Cfrac+%7Bd%7D%7Bdx%7D+%5Cleft%28%5Cfrac%7B%5Cpartial+G%7D%7B%5Cpartial+p%27%7D%5Cright%29+%3D+0& alt=&\frac {\partial G}{\partial p}-\frac {d}{dx} \left(\frac{\partial G}{\partial p'}\right) = 0& eeimg=&1&&&/p&&p&我们得到使得 &img src=&http://www.zhihu.com/equation?tex=H%5Bp%5D& alt=&H[p]& eeimg=&1&& 最大的 &img src=&http://www.zhihu.com/equation?tex=p%28x%29& alt=&p(x)& eeimg=&1&& 需要满足:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cln+p%28x%29%3D-1%2B%5Clambda_1%2B%5Clambda_2x%2B%5Clambda_3%28x-%5Cmu%29%5E2& alt=&\ln p(x)=-1+\lambda_1+\lambda_2x+\lambda_3(x-\mu)^2& eeimg=&1&&&/p&&p&即:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28x%29%3D%5Cexp+%28-1%2B%5Clambda_1%2B%5Clambda_2x%2B%5Clambda_3%28x-%5Cmu%29%5E2%29& alt=&p(x)=\exp (-1+\lambda_1+\lambda_2x+\lambda_3(x-\mu)^2)& eeimg=&1&&&/p&&p&带入约束中,不难解出:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28x%29%3D%5Cfrac+1+%7B%5Csqrt%7B2%5Cpi%7D%5Csigma%7D+%5Cexp+%5Cleft%5C%7B%5Cfrac+%7B%28x-%5Cmu%29%5E2%7D%7B2%5Csigma%5E2%7D%5Cright%5C%7D& alt=&p(x)=\frac 1 {\sqrt{2\pi}\sigma} \exp \left\{\frac {(x-\mu)^2}{2\sigma^2}\right\}& eeimg=&1&&&/p&&p&即高斯分布是满足约束下,熵最大的分布。&/p&&h2&更多的损失函数与正则&/h2&&p&接下来,我们讨论其他的损失函数与正则。&/p&&p&事实上,如果我们考虑更一般的分布:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=p%28x%7C%5Csigma%5E2%2Cq%29%3D%5Cfrac%7Bq%7D%7B2%282%5Csigma%5E2%29%5E%7B1%2Fq%7D%5CGamma%281%2Fq%29%7D+%5Cexp%5Cleft%5C%7B-%5Cfrac%7B%7Cx%7C%5Eq%7D%7B2%5Csigma%5E2%7D%5Cright%5C%7D& alt=&p(x|\sigma^2,q)=\frac{q}{2(2\sigma^2)^{1/q}\Gamma(1/q)} \exp\left\{-\frac{|x|^q}{2\sigma^2}\right\}& eeimg=&1&&&/p&&p&不难得出:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%5Cln+p%28x%7C%5Csigma%5E2%2Cq%29%3D-%5Cfrac+%7B%7Cx%7C%5Eq%7D%7B2%5Csigma%5E2%7D%2Bconst& alt=&\ln p(x|\sigma^2,q)=-\frac {|x|^q}{2\sigma^2}+const& eeimg=&1&&&/p&&p&在回归问题中,如果我们用这个分布作为预测值与目标值之间误差的分布:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=t%3Dy%28x%2Cw%29%2B%5Cepsilon%2C+%7E%5Cepsilon%5Csim+p%28%5Cepsilon%7C%5Csigma%5E2%2Cq%29& alt=&t=y(x,w)+\epsilon, ~\epsilon\sim p(\epsilon|\sigma^2,q)& eeimg=&1&&&/p&&p&那么,对应的损失函数为 &img src=&http://www.zhihu.com/equation?tex=L_q& alt=&L_q& eeimg=&1&& 损失函数:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%7Cy%28x%2Cw%29-t%7C%5Eq& alt=&|y(x,w)-t|^q& eeimg=&1&&&/p&&p&如果我们认为参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的先验服从该分布:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=w%5Csim+p%28w%7C%5Csigma%5E2%2Cp%29& alt=&w\sim p(w|\sigma^2,p)& eeimg=&1&&&/p&&p&那么,对应的正则项为 &img src=&http://www.zhihu.com/equation?tex=L_p& alt=&L_p& eeimg=&1&& 正则项:&/p&&p&&img src=&http://www.zhihu.com/equation?tex=%7Cw%7C_p& alt=&|w|_p& eeimg=&1&&&/p&&p&当 &img src=&http://www.zhihu.com/equation?tex=p%3D1& alt=&p=1& eeimg=&1&& 时,我们相当于加了一个 &img src=&http://www.zhihu.com/equation?tex=L_1& alt=&L_1& eeimg=&1&& 范数的正则项,即Lasso,它通常具有稀疏的作用,原因是此时参数的先验分布大概长这个样子:&/p&&figure&&img src=&https://pic1.zhimg.com/v2-116c629ceec_b.jpg& data-size=&normal& data-rawwidth=&375& data-rawheight=&252& class=&content_image& width=&375&&&figcaption&p(w|0.01,1)&/figcaption&&/figure&&h2&总结&/h2&&p&总而言之,优化损失函数与正则项,其实代表的是对参数 &img src=&http://www.zhihu.com/equation?tex=w& alt=&w& eeimg=&1&& 的极大似然或者极大后验估计,不同的损失函数和正则项,反映的我们对参数先验分布和似然函数的不同假设。&/p&&p&&br&&/p&&p&[1] Christopher, M. Bishop. &Pattern recognition and machine learning.& Company New York 16.4 (2006): 049901.&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&&p&&/p&
高能预警:本文涉及大量的数学推导,如有不适,概不负责。回归问题与平方误差和在回归问题(regression problems)中,我们常用平方误差和(sum of squares)来衡量模型的好坏。回归问题可以定义如下:给定一个包含N 个数据的训练集 \mathbb x\equiv\{x_1,x…
&p&以这篇文章开始,我将跟大家分享多篇有关数学优化的原创文章。第一篇我们走进天下五绝之首,中神通Fenchel。 &/p&&p&&br&&/p&&p&&b&前言&/b&&/p&&p&Fenchel出生在德国柏林的犹太家庭, 博士毕业于柏林大学。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-a5ea38e0f8c16bc334fad0b3c7f315d9_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&252& data-rawheight=&400& class=&content_image& width=&252&&&/figure&&p&这个德国出生的年轻人的第一份工作就在哥廷根数学研究所(the Mathematical Institute in Gottingen),跟从Edmund Landau做凸优化相关研究, 注意这个Landau不是物理界的神Lev Landau。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-970b6cd67d3af96a087630_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1280& data-rawheight=&853& class=&origin_image zh-lightbox-thumb& width=&1280& data-original=&https://pic1.zhimg.com/v2-970b6cd67d3af96a087630_r.jpg&&&/figure&&p&首先哥廷根数学研究所不是一个简单的地方, 高斯,黎曼,希尔伯特,克莱因,卡拉西奥多里,狄利克莱,冯诺依曼都在这里工作过。 &/p&&figure&&img src=&https://pic2.zhimg.com/v2-aae5efae392d95b657fa6f5fe4241ac5_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1358& data-rawheight=&420& class=&origin_image zh-lightbox-thumb& width=&1358& data-original=&https://pic2.zhimg.com/v2-aae5efae392d95b657fa6f5fe4241ac5_r.jpg&&&/figure&&p&其次, 他的博士导师Ludwig Bieberbach就是研究不等式的大师, 而Ludwig的导师就是克莱因, 所以他是克莱因的徒孙。 Ludwig把自己优秀的学生Fenchel介绍给自己在Gottingen的好友Edmund做助理。 &/p&&p&&br&&/p&&p&从此, Fenchel利用继承Ludwig搞不等式的精神来做Edmund的凸优化,这个世界上最优秀的凸优化大师的课题。 一下子奠定了凸优化的基础,开启了凸优化发展的新模式-对偶模式。 &/p&&p&&br&&/p&&p&由于纳粹的影响, Fenchel被迫离开了心爱的哥根廷,去了丹麦的哥本哈根 。 凡事好坏皆有, 好事是, 在那里他和犹太女数学家K?te Sperling结婚了。 Kate是非阿贝尔群方面的大师。 两人数学伉俪在哥本哈根也被占领后被迫去了美国, 但是战后, 又回到了哥本哈根大学, 并在那里生活了一辈子。 &/p&&figure&&img src=&https://pic4.zhimg.com/v2-8bbe85f2bc7905eabeb8f_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1234& data-rawheight=&788& class=&origin_image zh-lightbox-thumb& width=&1234& data-original=&https://pic4.zhimg.com/v2-8bbe85f2bc7905eabeb8f_r.jpg&&&/figure&&p&另外,随便提一下。Fenchel有个微分几何数学家好朋友,叫Busemann。 就是下面图片,浅色西装那位,他会的工作语言有French, German, Spanish, Italian, Russian, 和 Danish。口语还有Arabic, Latin, Greek and Swedish。 简直太牛了! 我们知道Boltzmann、Lagrange和Kolmogorov等大数学家,最早也是学习语言和历史,然后转到数学的。
所以如果想要学好数学, 请先学好语言学。 &/p&&p&&br&&/p&&p&下图:
Werner Fenchel, Alexander Danilowitsch Alexandroff, Herbert Busemann, B?rge Jessen 的合影。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-f4cb6e3e5812433ddfc6d3f1_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&800& data-rawheight=&556& class=&origin_image zh-lightbox-thumb& width=&800& data-original=&https://pic2.zhimg.com/v2-f4cb6e3e5812433ddfc6d3f1_r.jpg&&&/figure&&p&&b&从Legendre变换到Fenchel共轭&/b&&/p&&p&&br&&/p&&p&Fenchel共轭的研究,是对Legendre变换的一个扩展(参考 & &a href=&https://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzIzMjU1NTg3Ng%3D%3D%26mid%3D%26idx%3D1%26sn%3De0cd2e9ac37ab77a251dd7%26chksm%3De892517ddfe5d86bd39d9ed66a7ca44b9cbe82909e%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&Legendre变变变&/a& & ), 突破了Legendre对凸可导的限制。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-508b7fe1188ace294acdb8_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&384& data-rawheight=&444& class=&content_image& width=&384&&&/figure&&p&对于不可以求导的, 没有导数 。 &/p&&figure&&img src=&https://pic3.zhimg.com/v2-a5e1d405dcbc_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&840& data-rawheight=&504& class=&origin_image zh-lightbox-thumb& width=&840& data-original=&https://pic1.zhimg.com/v2-a5e1d405dcbc_r.jpg&&&/figure&&p&另外一种情况下, 就是对于非凸的情况, 导数不唯一。 &/p&&figure&&img src=&https://pic4.zhimg.com/v2-bfabe03aee666d_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&762& data-rawheight=&472& class=&origin_image zh-lightbox-thumb& width=&762& data-original=&https://pic2.zhimg.com/v2-bfabe03aee666d_r.jpg&&&/figure&&p&那么, Fenchel是怎么解决这个问题的呢? 一方面要兼容Legendre的导数支撑面, 另外一方面要让不可导或者非凸情况下, 具有函数的唯一性。 &/p&&p&&br&&/p&&p&&i&Fenchel利用了罗尔定理到中值定理中描述的极值和导数的关系。用极大或者极小值来隐含导数的关系。&/i& &/p&&figure&&img src=&https://pic2.zhimg.com/v2-2d90d434b68f60694bbf630120fcb53d_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1268& data-rawheight=&566& class=&origin_image zh-lightbox-thumb& width=&1268& data-original=&https://pic2.zhimg.com/v2-2d90d434b68f60694bbf630120fcb53d_r.jpg&&&/figure&&p&另外极值, 在非凸情况下的线性外包络是凸函数。 &/p&&figure&&img src=&https://pic4.zhimg.com/v2-5be380da17c97c28452d79_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1190& data-rawheight=&816& class=&origin_image zh-lightbox-thumb& width=&1190& data-original=&https://pic2.zhimg.com/v2-5be380da17c97c28452d79_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-36faa47b6aa6a0a8de2e_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1330& data-rawheight=&388& class=&origin_image zh-lightbox-thumb& width=&1330& data-original=&https://pic2.zhimg.com/v2-36faa47b6aa6a0a8de2e_r.jpg&&&/figure&&p&&br&&/p&&p&这样使得Fenchel共轭函数的性质非常好。
当然Legendre肯定不是故意忽视这个方面的, 而是在当时物理的发展应用下, 没有这个需求。&/p&&p&&br&&/p&&p&&b&Fenchel共轭的三个视角&/b&&/p&&p&&br&&/p&&p&&b&一:切线支持面&/b&&/p&&figure&&img src=&https://pic4.zhimg.com/v2-c9d81ea837a99c697fefe9a7_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1158& data-rawheight=&556& class=&origin_image zh-lightbox-thumb& width=&1158& data-original=&https://pic4.zhimg.com/v2-c9d81ea837a99c697fefe9a7_r.jpg&&&/figure&&p&在这种理解下, 我们细看一下, Fenchel共轭函数,它是切线簇的截距b的负值簇。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-2cf776872cddeb6272d41_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&852& data-rawheight=&544& class=&origin_image zh-lightbox-thumb& width=&852& data-original=&https://pic2.zhimg.com/v2-2cf776872cddeb6272d41_r.jpg&&&/figure&&p&假设斜率s,那么固定s情况下, 经过一个切点( x*, f(x*) )的直线的截距和x*围成一个直角三角形。
这个直角三角形的斜率s为垂直边长度比上水平边长度的比值。
或者说水平边长度乘以斜率得到垂直边长度。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-1e870078ddb3ede07395b0_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&858& data-rawheight=&380& class=&origin_image zh-lightbox-thumb& width=&858& data-original=&https://pic1.zhimg.com/v2-1e870078ddb3ede07395b0_r.jpg&&&/figure&&p&这样我们找到了截距和斜率直接的关系, 在这个关系里面, 稍微有点不和谐的是负的斜率。 但是这样写成斜率的一阶形式,比较好看些。 那剩下来的问题, 只要确定这个切点就可以了。 &/p&&p&在这一层理解上, 你会发现一个很有意思的东西,就是一个函数和它的Fenchel共轭之间通过切线联系起来。 更好玩的是,如果继续对共轭再取共轭,又回到了原函数。
所以,开启了凸可到函数和切线之间的神奇模式。 &/p&&figure&&img src=&https://pic4.zhimg.com/v2-fc73ac506b9d7ac7dd6b16bc91fd77cb_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1030& data-rawheight=&544& class=&origin_image zh-lightbox-thumb& width=&1030& data-original=&https://pic4.zhimg.com/v2-fc73ac506b9d7ac7dd6b16bc91fd77cb_r.jpg&&&/figure&&p&&b&二: 曲线上到过原点斜线最远距离&/b&&/p&&p&&br&&/p&&p&对于非凸的情况, 切线支撑面可能就不太好理解了。 但是这个毕竟是最早的思想的来源。 如果换成极值的情况下。 就是先固定一个斜率, 然后作过原点的直线, 然后找直线上所有的点里面到这个点垂直距离最大的点, 当然这里要考虑正负号的计算。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-c9fe5bd4dc6_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&541& data-rawheight=&307& class=&origin_image zh-lightbox-thumb& width=&541& data-original=&https://pic3.zhimg.com/v2-c9fe5bd4dc6_r.jpg&&&/figure&&p&&br&&/p&&p&用固定斜率直线上的点, 减去曲线上的点。 当然, 如果你从最远点做一条平行线, 可以证明这个线在凸可导的情况下是切线的。 所以,这样可以从图形上理解, 从Legendre变换到Fenchel共轭的演变。 就是把切线平移到过原点, 把截距变成了斜线上点到切点的垂直距离。 &/p&&figure&&img src=&https://pic4.zhimg.com/v2-20901fce41b710cdba10d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&303& data-rawheight=&260& class=&content_image& width=&303&&&/figure&&p&&br&&/p&&figure&&img src=&https://pic2.zhimg.com/v2-d17ea118f866d47a2afc_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1050& data-rawheight=&370& class=&origin_image zh-lightbox-thumb& width=&1050& data-original=&https://pic1.zhimg.com/v2-d17ea118f866d47a2afc_r.jpg&&&/figure&&p&这是理解Fenchel共轭的第二层境界, 有了这层境界,就可以理解Bregmen Divergence距离的用意了。Bregman散度的定义如下:&/p&&figure&&img src=&https://pic3.zhimg.com/v2-c319c431b154d0e31eb22a83d8624a6d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&584& data-rawheight=&92& class=&origin_image zh-lightbox-thumb& width=&584& data-original=&https://pic2.zhimg.com/v2-c319c431b154d0e31eb22a83d8624a6d_r.jpg&&&/figure&&p&Bregmen散度的几何意义非常清楚, 就是下图, 红色线的长度。 但是为什么要计算这个距离呢?假如你不知道Bregman散度,但是知道KL散度,那么KL散度,可以看成是Bregmen散度的一个特例, 是不是一下子就重要了?&/p&&figure&&img src=&https://pic4.zhimg.com/v2-bad406df5ca_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1496& data-rawheight=&888& class=&origin_image zh-lightbox-thumb& width=&1496& data-original=&https://pic1.zhimg.com/v2-bad406df5ca_r.jpg&&&/figure&&p&我们看一个东西, Fenchel共轭的共轭:&/p&&figure&&img src=&https://pic4.zhimg.com/v2-7ba906ef09f7_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&676& data-rawheight=&298& class=&origin_image zh-lightbox-thumb& width=&676& data-original=&https://pic3.zhimg.com/v2-7ba906ef09f7_r.jpg&&&/figure&&p&&br&&/p&&p&从上面,可以看到很明显的有如下公式&/p&&figure&&img src=&https://pic1.zhimg.com/v2-cddcf051a1b9ce4c4ce29ac_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&406& data-rawheight=&80& class=&content_image& width=&406&&&/figure&&p&而Bregman距离,就是告诉你在Fenchel共轭里面, 这个单一线情况的距离。 尤其对于部分非凸的情况下的闭包设计。
这样, 大家也可以去理解一下,共轭的共轭的对于非凸函数的伟大意义了。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-f7f22915f8_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1182& data-rawheight=&804& class=&origin_image zh-lightbox-thumb& width=&1182& data-original=&https://pic1.zhimg.com/v2-f7f22915f8_r.jpg&&&/figure&&p&&br&&/p&&figure&&img src=&https://pic1.zhimg.com/v2-6c2ef00cbd6119_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1777& data-rawheight=&1143& class=&origin_image zh-lightbox-thumb& width=&1777& data-original=&https://pic2.zhimg.com/v2-6c2ef00cbd6119_r.jpg&&&/figure&&p&&b&三:曲线的垂直轴的积分&/b&&/p&&p&&br&&/p&&p&接下来, 我们要讲Fenchel共轭理解的第三层境界。 理解了这一层境界,就可以对Fenchel函数的各种高深性质进行直观理解了。 &/p&&p&如果我们直接把切线看成一个函数, 把凸函数本身看成是一个积分, 那么一个函数和它的共轭就是同一个导数曲线分别对X轴和Y轴的积分, 所以他们相加起来, 结果为正方形的大小XY。
根据逆函数的性质, 所以我们知道共轭函数的导数互为逆函数。 这就是在第一层境界里面理解的神奇的本质关系。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-30b6e508a81a169f1fe6ec_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1276& data-rawheight=&892& class=&origin_image zh-lightbox-thumb& width=&1276& data-original=&https://pic2.zhimg.com/v2-30b6e508a81a169f1fe6ec_r.jpg&&&/figure&&p&那么, 按这个理解, 对于其他情况呢? 其实也是类似的, 只是不是XY,而是差了一个曲线围住的常数。 这里就不展开了。 &/p&&figure&&img src=&https://pic3.zhimg.com/v2-ba5d9b6a17f4c7c70c602_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&2220& data-rawheight=&930& class=&origin_image zh-lightbox-thumb& width=&2220& data-original=&https://pic3.zhimg.com/v2-ba5d9b6a17f4c7c70c602_r.jpg&&&/figure&&p&&b&Fenchel-Young 不等式&/b&&/p&&p&&br&&/p&&p&直观上理解Fenchel不等式&/p&&p&Fenchel不等式证明非常容易。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-bec6d70eb_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&716& data-rawheight=&146& class=&origin_image zh-lightbox-thumb& width=&716& data-original=&https://pic4.zhimg.com/v2-bec6d70eb_r.jpg&&&/figure&&p&但是如何联系图形图像去理解, 一旦有了第三层对Fenchel共轭的理解之后就很容易从图形上去理解Fenchel不等式了。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-6e930ccf380c4f6fe7a61e58124acde6_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&330& data-rawheight=&88& class=&content_image& width=&330&&&/figure&&p&如下图所示, 当给定的矩阵, 不是刚好落在导数上的时候, 那么矩阵的面积就小于两个积分之和了。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-5c472c8cfc64fb4b9fade34_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1394& data-rawheight=&1020& class=&origin_image zh-lightbox-thumb& width=&1394& data-original=&https://pic1.zhimg.com/v2-5c472c8cfc64fb4b9fade34_r.jpg&&&/figure&&p&其实这个积分性质最早是William Henry Young发现的。 不过Fenchel在凸优化里面应用的出神入化!&/p&&figure&&img src=&https://pic4.zhimg.com/v2-c4ea0286e1dce013e2534e_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&273& data-rawheight=&326& class=&content_image& width=&273&&&/figure&&p&&b&Fenchel 不等式的巨大能力&/b&&/p&&p&&br&&/p&&p&Fenchel不等式的强大在于对一些对偶问题建立了统一的理论解释。 &/p&&p&譬如, 学过SVM的朋友肯定知道Lagrange Duality 对偶方法。 而且根据对偶的解释也知道了KKT条件(参考 &a href=&https://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzIzMjU1NTg3Ng%3D%3D%26mid%3D%26idx%3D1%26sn%3Df0da49bf1a6cee6fe6f37%26chksm%3De89250c6dfe5d9d0dc8aa652c0cbc9d854ef22d8eac597d0f0eeb780de90a6dc82f%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&一挑三 FJ vs KKT&/a& )。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-a08b5cc98a65f6b0a783e949bcbad3ec_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&812& data-rawheight=&738& class=&origin_image zh-lightbox-thumb& width=&812& data-original=&https://pic1.zhimg.com/v2-a08b5cc98a65f6b0a783e949bcbad3ec_r.jpg&&&/figure&&p&之前, 我们理解Lagrange对偶的方法, 都是通过冯诺依曼的最小最大定理(von Neumann-Fan Minimax Theorem)来说明的:&/p&&figure&&img src=&https://pic3.zhimg.com/v2-2a98993cae41f8e25e4b4f8c77861aca_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&672& data-rawheight=&82& class=&origin_image zh-lightbox-thumb& width=&672& data-original=&https://pic3.zhimg.com/v2-2a98993cae41f8e25e4b4f8c77861aca_r.jpg&&&/figure&&p&但是没有解释Lagrange表达式是如何来的。 也没有几何上的很好的解释。但是, 通过Fenchel不等式就可以直观的解释这些。
那么, 神奇的Lagrange表达式是如何来的呢?&/p&&figure&&img src=&https://pic1.zhimg.com/v2-2dbea5fb5e6f2a8ef676a_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&936& data-rawheight=&1016& class=&origin_image zh-lightbox-thumb& width=&936& data-original=&https://pic3.zhimg.com/v2-2dbea5fb5e6f2a8ef676a_r.jpg&&&/figure&&p&从上面, 我们清楚的看到了Lagrange表达式是Fenchel对偶的演绎。既然是Fenchel对偶, 那么就有Fenchel不等式成立。 &/p&&figure&&img src=&https://pic3.zhimg.com/v2-9d63b05cf14981e1dbfa7d840fa44695_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&500& data-rawheight=&494& class=&origin_image zh-lightbox-thumb& width=&500& data-original=&https://pic2.zhimg.com/v2-9d63b05cf14981e1dbfa7d840fa44695_r.jpg&&&/figure&&p&再回到, Fenchel不等式理解什么时候等式成立的条件, 又回到了Legendre变换和Fenchel共轭的的差异。 再回过来体会, Lagrange对偶的成立条件。 是不是一下子就联系起来了?&/p&&figure&&img src=&https://pic3.zhimg.com/v2-91cb1edbe73982fe42be_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&644& data-rawheight=&938& class=&origin_image zh-lightbox-thumb& width=&644& data-original=&https://pic3.zhimg.com/v2-91cb1edbe73982fe42be_r.jpg&&&/figure&&p&&b&Fenchel对偶&/b&&/p&&p&&br&&/p&&p&基于扰动函数的对偶&/p&&p&有了上面对Fenchel共轭的理解, 那么我们就可以知道共轭的共轭,是对原来函数的一个凸闭包。 当然, 如果原来函数已经是凸函数了, 那么共轭的共轭就是自己了。 &/p&&figure&&img src=&https://pic4.zhimg.com/v2-bf3d498eeecb997fca7b9_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1066& data-rawheight=&264& class=&origin_image zh-lightbox-thumb& width=&1066& data-original=&https://pic2.zhimg.com/v2-bf3d498eeecb997fca7b9_r.jpg&&&/figure&&p&如果我们把前面提到的Perturbation函数拿出来分析, 而不去考虑后面具体的公式。 我们可以看到强对偶和弱对偶的情况下的不一致。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-da80ff506a7d43c1acf1c20e7e59642d_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&1443& data-rawheight=&933& class=&origin_image zh-lightbox-thumb& width=&1443& data-original=&https://pic2.zhimg.com/v2-da80ff506a7d43c1acf1c20e7e59642d_r.jpg&&&/figure&&figure&&img src=&https://pic7.zhimg.com/v2-cf644c0d900cfe_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&377& data-rawheight=&258& class=&content_image& width=&377&&&/figure&&p&假如我们直接基于Perturbation扰动函数, 利用Fenchel共轭的关系开始建立对偶关系。 详细的推理过程就省略了, 大家有兴趣可以自己根据前面类似的过程, 利用Fenchel不等式, 推理一下。 &/p&&figure&&img src=&https://pic1.zhimg.com/v2-421bdaf879d9cb6c1834_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&504& data-rawheight=&334& class=&origin_image zh-lightbox-thumb& width=&504& data-original=&https://pic1.zhimg.com/v2-421bdaf879d9cb6c1834_r.jpg&&&/figure&&p&注意这里0点的选择, 这也是为什么你看到的所有的对偶的图示里面, 基本围绕扰动函数0点的值。 &/p&&p&&br&&/p&&p&Fenchel对偶&/p&&p&Fenchel对偶,可以看成是Lagrange对偶的一种应用。 &/p&&figure&&img src=&https://pic3.zhimg.com/v2-eb4a58c8c28_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&634& data-rawheight=&522& class=&origin_image zh-lightbox-thumb& width=&634& data-original=&https://pic1.zhimg.com/v2-eb4a58c8c28_r.jpg&&&/figure&&figure&&img src=&https://pic1.zhimg.com/v2-1ed34bff81c2a86fa3d092_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&401& data-rawheight=&526& class=&content_image& width=&401&&&/figure&&p&&br&&/p&&p&当然,你也可以表示成两个函数的和的形式。 只是, 第二个函数在图示上,就变成了-f2(x)了。
&/p&&figure&&img src=&https://pic3.zhimg.com/v2-6cd78a6ff5cd400f1eed4e2a5cdbb8dd_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&382& data-rawheight=&256& class=&content_image& width=&382&&&/figure&&figure&&img src=&https://pic3.zhimg.com/v2-98d073fce2df15bfdf48bd7_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&698& data-rawheight=&536& class=&origin_image zh-lightbox-thumb& width=&698& data-original=&https://pic4.zhimg.com/v2-98d073fce2df15bfdf48bd7_r.jpg&&&/figure&&p&&br&&/p&&p&可以看到, Fenchel对偶的含义就是:&b&找到截距值差最大的那组平行切线。&/b& &/p&&p&&br&&/p&&p&&b&小结:&/b&&/p&&p&我们这里介绍了凸优化和对偶的中神通Fenchel, 有了Fenchel,有了FJ,KKT(参考 &a href=&https://link.zhihu.com/?target=http%3A//mp.weixin.qq.com/s%3F__biz%3DMzIzMjU1NTg3Ng%3D%3D%26mid%3D%26idx%3D1%26sn%3Df0da49bf1a6cee6fe6f37%26chksm%3De89250c6dfe5d9d0dc8aa652c0cbc9d854ef22d8eac597d0f0eeb780de90a6dc82f%26scene%3D21%23wechat_redirect& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&一挑三 FJ vs KKT&/a&)等等就有了很强大的凸优化的工具集合了。&/p&&figure&&img src=&https://pic2.zhimg.com/v2-df5bc83bc7010_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1502& data-rawheight=&822& class=&origin_image zh-lightbox-thumb& width=&1502& data-original=&https://pic1.zhimg.com/v2-df5bc83bc7010_r.jpg&&&/figure&&p&最后, 这种扰动函数加切线闭包的思想,进一步衍生, 可以把切线修改成切二次曲线, 然后就会得到更为神奇的结论, 是什么呢?
希望以后有时间具体描述。&/p&&figure&&img src=&https://pic1.zhimg.com/v2-5bbea14d218f4d33c45faa03a366f08a_b.jpg& data-caption=&& data-size=&small& data-rawwidth=&986& data-rawheight=&842& class=&origin_image zh-lightbox-thumb& width=&986& data-original=&https://pic3.zhimg.com/v2-5bbea14d218f4d33c45faa03a366f08a_r.jpg&&&/figure&&p&&br&&/p&&p&由于个人时间不够,难以深入太多! 希望能够帮到您学习最深的人工智能和机器学习。&/p&&p&&br&&/p&&p&&b&附录: &/b&&/p&&p&&b&最优化之 东邪西毒 南帝北丐&/b& &/p&&p&东邪 Dimitri Bertsekas MIT &/p&&figure&&img src=&https://pic1.zhimg.com/v2-beb1bfc6cf_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&250& data-rawheight=&304& class=&content_image& width=&250&&&/figure&&p&西毒 Stephen P. Boyd
Stanford University&/p&&figure&&img src=&https://pic4.zhimg.com/v2-e399a05b22edfb2c0aaca83_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&397& data-rawheight=&443& class=&content_image& width=&397&&&/figure&&p&南帝 Andrzej Ruszczyński Rutgers University &/p&&figure&&img src=&https://pic4.zhimg.com/v2-c9ac850efd9c2_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&405& data-rawheight=&593& class=&content_image& width=&405&&&/figure&&p&&br&&/p&&p&北丐 Stephen J. Wright, University of Wisconsin&/p&&figure&&img src=&https://pic3.zhimg.com/v2-151bbcd255e5eb4f8d24_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&272& data-rawheight=&390& class=&content_image& width=&272&&&/figure&&p&&br&&/p&&p&郭靖 Mark Schmidt, University of British Columbia&/p&&figure&&img src=&https://pic4.zhimg.com/v2-ecd4df1eeb_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&441& data-rawheight=&554& class=&origin_image zh-lightbox-thumb& width=&441& data-original=&https://pic4.zhimg.com/v2-ecd4df1eeb_r.jpg&&&/figure&&p&&br&&/p&&p&中神通
Werner Fenchel&/p&&figure&&img src=&https://pic4.zhimg.com/v2-15a610b626c8d5807992fef049d8e34f_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&331& data-rawheight=&500& class=&content_image& width=&331&&&/figure&&p&&br&&/p&&p&&br&&/p&&p&中顽童 Jean Jacques Moreau&/p&&figure&&img src=&https://pic2.zhimg.com/v2-ae294effa2_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&450& data-rawheight=&585& class=&origin_image zh-lightbox-thumb& width=&450& data-original=&https://pic3.zhimg.com/v2-ae294effa2_r.jpg&&&/figure&&p&&br&&/p&&p&参考:&/p&&p&&a href=&https://link.zhihu.com/?target=http%3A//aapt.scitation.org/doi/pdf/10.5320& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&aapt.scitation.org/doi/&/span&&span class=&invisible&&pdf/10.5320&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&&a href=&https://link.zhihu.com/?target=http%3A//odessa.phy.sdsmt.edu/%7Eandre/PHYS743/lfth2.pdf& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&http://&/span&&span class=&visible&&odessa.phy.sdsmt.edu/~a&/span&&span class=&invisible&&ndre/PHYS743/lfth2.pdf&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&&a href=&https://link.zhihu.com/?target=https%3A//mli7.wordpress.com/2011/04/& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&mli7.wordpress.com/2011&/span&&span class=&invisible&&/04/&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&&a href=&https://link.zhihu.com/?target=https%3A//opc.mfo.de/detail%3Fphoto_id%3D1094& class=& external& target=&_blank& rel=&nofollow noreferrer&&&span class=&invisible&&https://&/span&&span class=&visible&&opc.mfo.de/detail?&/span&&span class=&invisible&&photo_id=1094&/span&&span class=&ellipsis&&&/span&&/a&&/p&&p&&/p&
以这篇文章开始,我将跟大家分享多篇有关数学优化的原创文章。第一篇我们走进天下五绝之首,中神通Fenchel。 前言Fenchel出生在德国柏林的犹太家庭, 博士毕业于柏林大学。这个德国出生的年轻人的第一份工作就在哥廷根数学研究所(the Mathematical Institut…
&p&上接&a href=&https://zhuanlan.zhihu.com/p/& class=&internal&&机器学习模型设计五要素&/a&,这一篇接着讲模型结构设计&/p&&p&把DNN引入ctr预估无非看重两点:&/p&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#1 改进模型结构,提高“信息利用率”,发现高阶非线性特征,挖掘以前挖不到潜在模式,比如DIN引入attention机制;
一般来说Embedding+MLP是标配。
#2 扩充“信息量”,把图片/文本这类不好处理的数据利用起来,比如DeepCTR;
&/code&&/pre&&/div&&p&&br&&/p&&h2&#0 RoadMap-搭积木&/h2&&figure&&img src=&https://pic1.zhimg.com/v2-edb1bf21c81c4caf03be1c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1147& data-rawheight=&787& class=&origin_image zh-lightbox-thumb& width=&1147& data-original=&https://pic1.zhimg.com/v2-edb1bf21c81c4caf03be1c_r.jpg&&&/figure&&p&除了图中主线之外,还有两个值得关注的地方:&/p&&blockquote&&b&embedding vector怎么融合?&/b&&/blockquote&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&* concatenate:wide&deep, DEF, DCM, DeepFM fk个节点
* inner/outer product:PNN inner/ fxfx1 or fxfxkxk个节点
* weighted sum:DIN, AFM; k个节点
* Bi-interaction:NFM先element-wise product再sum, AFM引入attention做 k个节点
&/code&&/pre&&/div&&p&&br&&/p&&blockquote&&b&与标准fc网络相比,embedding layer有什么特殊之处?&/b&&/blockquote&&ul&&li&上一层 → embedding&/li&&/ul&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&
-前向:标准fc网络站在hidden节点recv,embedding站在上一层节点send
-后向:仅更新非0节点网络参数
&/code&&/pre&&/div&&ul&&li&embedding → 下一层:&/li&&/ul&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&
-标准fc网络相当于作element-wise-add + activitation function变换
-embedding支持更多算子,比如inner/outer/concatenate/...
&/code&&/pre&&/div&&p&&br&&/p&&h2&#1 LR&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-09c0c9a25fafef41bbb82_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&148& data-rawheight=&198& class=&content_image& width=&148&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}:&u,a,c,y&
#f(x):单层单节点的“DNN”, 宽而不深,深宽大战鄙视链的底端
|--参数量n+1
#loss:logloss/... + L1/L2/...
#optimizer:sgd/...
#evalution:logloss/auc/...
&/code&&/pre&&/div&&p&&br&&/p&&h2&#2 MF&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-c972ee438ae_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&367& data-rawheight=&414& class=&content_image& width=&367&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}:&u,a,y&
#f(x):前半部分实际上就是DL embedding层
|--参数量(#users+#items)xK
#loss:rmse/... + L1/L2/...
#optimizer:sgd/...
#evalution:rmse/...
&/code&&/pre&&/div&&p&&br&&/p&&h2&#3 MLR = Embedding + MF + LR &/h2&&figure&&img src=&https://pic3.zhimg.com/v2-d8b2d71c0de25d7de8de_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&637& data-rawheight=&292& class=&origin_image zh-lightbox-thumb& width=&637& data-original=&https://pic3.zhimg.com/v2-d8b2d71c0de25d7de8de_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}:&u,a,c,y&
#f(x):Embedding + MF + LR
|--参数量2mn
#loss:logloss + L21 + L1
#optimizer:
#evalution:auc
&/code&&/pre&&/div&&p&&br&&/p&&h2&#4 FM = LR + MF&/h2&&figure&&img src=&https://pic1.zhimg.com/v2-beeda50f39810_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1067& data-rawheight=&252& class=&origin_image zh-lightbox-thumb& width=&1067& data-original=&https://pic1.zhimg.com/v2-beeda50f39810_r.jpg&&&/figure&&figure&&img src=&https://pic4.zhimg.com/v2-098dc05dca6fa4c77d47_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&515& data-rawheight=&639& class=&origin_image zh-lightbox-thumb& width=&515& data-original=&https://pic4.zhimg.com/v2-098dc05dca6fa4c77d47_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}:&u,a,c,y&
#f(x):FM = LR + MFs
|--参数量1+n(lr part) + nk(embedding part)
#loss:logloss/... + L1/L2/...
#optimizer:sgd/...
#evalution:logloss/auc/...
&/code&&/pre&&/div&&p&&br&&/p&&h2&#5 FNN = FM + MLP = LR + MF + MLP&/h2&&figure&&img src=&https://pic4.zhimg.com/v2-d9ffb1e0ffaedc7_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1680& data-rawheight=&812& class=&origin_image zh-lightbox-thumb& width=&1680& data-original=&https://pic4.zhimg.com/v2-d9ffb1e0ffaedc7_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}:&u,a,c,y&
#f(x):FNN = FM + MLP, FM的基础上堆叠mlp, FM part pre-
|--参数量:1+n + nk(fm part) + (1+f+fk)xH1+H1xH2+H2x1(mlp part)
#loss:logloss
#optimizer:sgd/...
#evalution:logloss/auc/...
&/code&&/pre&&/div&&p&&br&&/p&&h2&#6 PNN = FNN + Product layer&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-e4503beed82c08bdba50401e6fddd2aa_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1460& data-rawheight=&904& class=&origin_image zh-lightbox-thumb& width=&1460& data-original=&https://pic3.zhimg.com/v2-e4503beed82c08bdba50401e6fddd2aa_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}:&u,a,c,y&
#f(x):produc layer learn interactive patterns再送入mlp, addition acts like &OR& gate while multiplication acting like &AND& gate, and the product layer seems to learn rules other than features.
|--inner参数量: 1+n + nk(embedding part) + (fxk+fx(f-1)/2)xH1(product part) + H1xH2+H2x1(mlp part)
|--outer参数量: 1+n + nk(embedding part) + (fxk+fx(f-1)/2xkxk)xH1(product part) + H1xH2+H2x1(mlp part)
#loss:logloss + dropout
#optimizer:gd
#evalution:logloss/auc/rig/rmse
&/code&&/pre&&/div&&p&&br&&/p&&h2&#7 WDL = LR + Embedding + MLP&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-01deb843fdce25d17aaea1ac630edfce_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&1559& data-rawheight=&369& class=&origin_image zh-lightbox-thumb& width=&1559& data-original=&https://pic3.zhimg.com/v2-01deb843fdce25d17aaea1ac630edfce_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}:&u,a,c,y&
#f(x):LR + Embedding + MLP, embedding part跟MF前半部分一样, mlp part网络参数降到 f x K x #hiddens,
但是加上embedding layer(也需要训练更新), 总参数并没有减少, 相当于把第一个隐含层单独拿出来特殊处理
|--好处:前向支持更多算子(concatenate/inner/outer/...);后向每次迭代模型参数更新量降低了,相当于只更新非0的x
|--embedding layer参数如何更新:把输入层看做one hot encoding激活的那个节点,没画出来的都是0,更新按照链式法则展开即可(w = w- eta*delta*x
when x=1)
|--参数量1+n(wide-part) + nxk(embedding part) + fxkxH1+H1xH2+H2x1(mlp part)
#loss:logloss/... + L1/L2/...
#optimizer:wide part用FTRL+L1正则, deep part用的AdaGrad
#evalution:auc
&/code&&/pre&&/div&&p&&br&&/p&&h2&#8 DeepFM = FM + Embedding + MLP&/h2&&figure&&img src=&https://pic4.zhimg.com/v2-6e3bcd86ddc127eb4010b_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&725& data-rawheight=&363& class=&origin_image zh-lightbox-thumb& width=&725& data-original=&https://pic4.zhimg.com/v2-6e3bcd86ddc127eb4010b_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}:&u,a,c,y&
#f(x):wide part用FM取代LR, wide & deep part 共享embedding vector
|--参数量:1+n(fm part) + nxk(embedding part) + fxkxH1+H1xH2+H2x1(mlp part)
#loss:logloss/... + L1/L2/...
#optimizer:adam
#evalution:logloss/auc/...
&/code&&/pre&&/div&&p&&br&&/p&&h2&#9 NFM = LR + Embedding + Bi-Interaction Pooling + MLP&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-582ade4feb65a88be08192_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&513& data-rawheight=&345& class=&origin_image zh-lightbox-thumb& width=&513& data-original=&https://pic3.zhimg.com/v2-582ade4feb65a88be08192_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}:&u,a,c,y&
#f(x):在embedding vector融合上做文章, 用Bi-Interaction pooling replace concatenation or sum/average,把layer参数量由fk -& k
|--参数量:1+n(lr part) + nxk(embedding part) + kxH1+H1xH2+...+Hlx1(mlp part)
#loss:squared loss/logloss/... + L1/L2/...
#optimizer:mini-batch Adagrad + dropout + Batch Normalization
#evalution:rmse
&/code&&/pre&&/div&&p&&br&&/p&&h2&#10 AFM = LR + Embedding + Attention + MLP&/h2&&figure&&img src=&https://pic2.zhimg.com/v2-f5f5d7be29c389bfafcecd_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&964& data-rawheight=&345& class=&origin_image zh-lightbox-thumb& width=&964& data-original=&https://pic2.zhimg.com/v2-f5f5d7be29c389bfafcecd_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}:&u,a,c,y&
#f(x):引入attention net, 给FM中每个interaction一个权重aij
|--参数量:1+n(lr part) + nxk(embedding part) + kxH1+2H1(attention part) + kx1(mlp part)
#loss:squared loss/logloss/... + L1/L2/...
#optimizer:mini-batch Adagrad + dropout + L2
#evalution:rmse
&/code&&/pre&&/div&&p&&br&&/p&&h2&#11 DIN = Embedding + Attention + MLP&/h2&&figure&&img src=&https://pic2.zhimg.com/v2-c7dc038fce0adea6d13d_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&825& data-rawheight=&487& class=&origin_image zh-lightbox-thumb& width=&825& data-original=&https://pic2.zhimg.com/v2-c7dc038fce0adea6d13d_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}:&u,a,c,y&
#f(x):引入Local Activation假设(用户的兴趣很广泛,用户看到一个商品时只有部分兴趣激活),用attention机制对用户历史行为进行筛选
|--参数量:nxk(embedding part) + 计算距离,不需要参数/也可能是一个mlp (attention part) + fxkxH1+H1xH2+H2x1(mlp part)
#loss:logloss + L2/dropout/adaptive regularization
#optimizer:sgd/...
#evalution:GAUC
&/code&&/pre&&/div&&p&&br&&/p&&h2&#12 DeepCTR = CNN + Embedding + MLP&/h2&&figure&&img src=&https://pic1.zhimg.com/v2-df0ed786dfd29a3311b47c_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&484& data-rawheight=&554& class=&origin_image zh-lightbox-thumb& width=&484& data-original=&https://pic1.zhimg.com/v2-df0ed786dfd29a3311b47c_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}:&u,a,c,y&,ad feature包含图片,扩大数据中的信息量
#f(x):CNN + Embedding + MLP,CNN提取图片信息,embedding提取离散特征信息(K=128,把SFC隐含层看做embedding layer)
|--参数量:?(cnn part) + nxSFC(embedding part) + 256x256+256x1(mlp part)
#loss:logloss + L2
#optimizer:sgd+momentum+weight decay
#evalution:relative auc
&/code&&/pre&&/div&&p&&br&&/p&&h2&#13 Deep Crossing Model = Embedding + ResNet + LR&/h2&&figure&&img src=&https://pic3.zhimg.com/v2-41cf9d8c70eba906b8552_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&625& data-rawheight=&457& class=&origin_image zh-lightbox-thumb& width=&625& data-original=&https://pic3.zhimg.com/v2-41cf9d8c70eba906b8552_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}:&q,a,c,y&,ad feature包含key words, title
#f(x):Embedding + ResNet + LR, 用ResNet 代替 mlp
|--参数量:embedding part + resnet part + lr part
#loss:logloss
#optimizer:BMUF in CNTK
#evalution:auc
&/code&&/pre&&/div&&p&&br&&/p&&h2&#14 Deep Embedding Forest = Embedding + Forest&/h2&&figure&&img src=&https://pic2.zhimg.com/v2-44daab7ea22beb8d2505_b.jpg& data-caption=&& data-size=&normal& data-rawwidth=&506& data-rawheight=&390& class=&origin_image zh-lightbox-thumb& width=&506& data-original=&https://pic2.zhimg.com/v2-44daab7ea22beb8d2505_r.jpg&&&/figure&&div class=&highlight&&&pre&&code class=&language-text&&&span&&/span&#{x,y}:&q,a,c,y&,ad feature包含key words, title
#f(x):Embedding + Forest, 用forest代替Deep Crossing Model中的resnet+lr part, 可以明显降低在线预测服务时耗
|--参数量:embedding part + forest part
#loss:logloss
#optimizer:BMUF in CNTK + XgBoost/LightGBM
#evalution:logloss + predicting time
&/code&&/pre&&/div&&p&&br&&/p&&p&参考资料:&/p&&p&[1] Factorization Machines_Rendle2010&/p&&p&[2] LS-PLM:Large Scale Piecewise Linear Model&/p&&p&[3] Deep Learning over Multi-Field Categorical Data: A Case Study on User Response Prediction&/p&&p&[4] Product-based Neural Networks for User Response Prediction&/p&&p&[5] Wide & Deep Learning for Recommender Systems&/p&&p&[6] DeepFM: A Factorization-Machine based Neural Network for CTR Prediction&/p&&p&[7] Deep Interest Network for Click-Through Rate Prediction&/p&&p&[8] &a href=&http://link.zhihu.com/?target=https%3A//mp.weixin.qq.com/s/UzukJHlYvRKtYBeuLoApqg& class=& wrap external& target=&_blank& rel=&nofollow noreferrer&&独家 | 阿里盖坤演讲:从人工特征到深度学习,我们为了更准确地预估点击率都做了多少努力 ( 附PPT )&/a&&/p&&p&[9] Deep CTR Prediction in Display Advertising&/p&&p&[10] Deep Crossing: Web-Scale Modeling without Manually Crafted Combinatorial Features&/p&&p&[11] Deep Embedding Forest: Forest-based Serving with Deep Embedding Features&/p&&p&[12] Neural Factorization Machines for Sparse Predictive Analytics&/p&&p&[13] Attentional Factorization Machines:Learning theWeight of Feature Interactions via Attention Networks&/p&
上接,这一篇接着讲模型结构设计把DNN引入ctr预估无非看重两点:#1 改进模型结构,提高“信息利用率”,发现高阶非线性特征,挖掘以前挖不到潜在模式,比如DIN引入attention机制;
一般来说Embedding+

我要回帖

更多关于 最大似然估计算法 的文章

 

随机推荐