机器学习中的线性模型
以下内容是在《机器学习实战:基于Scikit-Learn,Keras和TensorFlow》中第四章内容基础上进行的总结.
模型原理
基本定义
我们默认向量均为列向量,用小写字符表示向量,大写字符表示矩阵.
假设训练集中总共有 m 个样本,第 i 个样本对应的特征和标签记为 (x(i),y(i)),不指定具体样本,可简记为 (x,y),对于每个样本的特征和标签有以下相关定义:
- 在不同公式中 x 的维数稍有不同,假设每个特征具有 n 个属性值,每个属性值分别为 x1,x2,⋯,xn:
- x∈Rn,标准的特征向量,x=(x1,x2,⋯,xn)T.
- x∈Rn+1,增加偏置项的特征向量,x=(1,x1,⋯,xn)T,为了简化公式所用.
上述中两种记法会在公式下方进行说明,若不加说明,则默认使用第一种记法.
- 在不同问题中标签的性质有所不同:
- 回归问题中 y∈R;
- 二分类问题中 y∈{0,1};
- 多分类问题中 y∈{0,1}K,其中 K 表示分类类别的总数目,y 是对应类别的one-hot向量.
one-hot向量:以K=5为例,类别为 3,则该类别对应的one-hot向量为 [0 0 0 1 0]T(类别从 0 开始编号).
以下符号名称具有特别的含义:
- y^ 表示模型预测的结果.
- θ 表示模型中包含的参数.
- L(y;x,θ) 表示损失函数,简写为 L(θ),书上记为 c(θ).
- J(y;x,θ) 表示成本函数,也称风险函数,简记为 J(θ).
- 下文中函数对向量或者矩阵求偏导,使用的均为分母布局,即求导结果的维数和求导对象的维数相同.
例如,θ=(θ1,θ2,⋯,θn)T∈Rn,函数J(θ):Rn→R,则∂θ∂J(θ)=(∂θ1∂J,∂θ2∂J,⋯,∂θn∂J)T
- 上式还可记为 ∇θJ(θ),表示 J(θ) 对向量 θ 求梯度.
关于更多向量或矩阵导数内容,可以参考The matrix cookbook中Derivatives篇章.
1.线性回归
标签 y∈R 为数值常量,令参数向量 θ=(θ0,θ1,⋯,θn)T,则线性模型预测值为
y^=θ0+θ1x1+θ2x2+⋯+θnxn=θTx
此处的 x 为增加偏置项的特征向量.
MSE损失函数
线性回归中常用均方误差(Mean square error, MSE)作为损失函数,MSE与其对应的成本函数定义如下:
L(θ)=(θTx−y)2,J(θ)=MSE(θ)=m1i=1∑m(θTx−y)2
通过标准方程求闭解
我们将全部的特征和标签分别表示为特征矩阵和标签向量的形式:
X=⎣⎢⎢⎢⎢⎢⎡11⋮1x1(1)x1(2)⋱x1(m)x2(1)x2(2)⋮x2(m)⋯⋯⋮⋯xn(1)xn(2)xn(m)⎦⎥⎥⎥⎥⎥⎤,y=⎣⎢⎢⎢⎢⎡y(1)y(2)⋮y(m)⎦⎥⎥⎥⎥⎤
于是MSE成本函数又可以表示为以下形式:
MSE(θ)=m1(Xθ−y)T(Xθ−y)
对 θ 求导可以得到:
∂θ∂MSE(θ)=m2XT(Xθ−y)
令导数等于 0 可得
θ^=(XTX)−1XTy(1.1)
由于 ∂θ∂θT∂MSE(θ)=XXT 矩阵范数恒 ⩾0(这里的矩阵范数可以是任意一种),于是 MSE(θ) 是关于 θ 的凸函数,所以 (1.1) 式得到的 θ^ 就是使成本函数最小的 θ 值.
注意:XTX 不一定满秩,所以可以不存在逆矩阵,但是可以通过SVD分解得到伪逆 X+(Moore-Penrose逆矩阵)代替 (XTX)−1XT.
求解逆矩阵的时间复杂度一般为 O(n2.4) 到 O(n3),而Scikit-Learn中的SVD分解复杂度约为 O(n2). 不适合用于处理特征数目较大的情形.
梯度下降
成本函数对 θ 的每一维的偏导数为:
∂θj∂MSE(θ)=m2i=1∑m(y^(i)−y(i))xj(i)(1.2)
其中 y^(i)=θTx(i). 记为梯度向量的形式可以如下表示:
∇θMSE(θ)=m2XT(Xθ−y)
如果我们以 ∇θMSE(θ) 作为每次的下降方向,设学习率为 η,则参数 θ 的更新方法为如下形式:
θ(下一步)=θ−η∇θMSE(θ)
梯度下降法分为三种,批量梯度下降,随机梯度下降,小批量梯度下降,三者的区别仅在每次计算梯度使用的训练集大小上:
- 批量梯度下降(BGD):每次以整个训练集计算一次梯度,对参数进行更新.
- 随机梯度下降(SGD):每次从训练集中随机选取一个样本计算梯度,对参数进行更新.
- 小批量梯度下降(Mini-BGD):设定一个
batch_size
大小,以 batch_size
大小对以打乱的训练集划分为多个 batch
,每次取一个 batch
中的样本计算一次梯度,对参数进行更新.(好处:可以利用GPU并行运算加快更新速度)
注意:使用梯度下降法必须对样本特征的属性值大小比例近似,为了避免数值较大的属性值产生“狭长的山谷”,从而减缓训练速度. 所以需要进行归一化或者标准化处理(特征缩放).
总结
算法 |
m 很大 |
n 很大 |
并行计算 |
超参数 |
要求缩放 |
Scikit-Learn API |
标准方程 |
快 |
慢 |
否 |
0 |
否 |
N/A |
SVD |
快 |
慢 |
否 |
0 |
否 |
LinearRegression |
BGD |
慢 |
快 |
否 |
2 |
是 |
SGDRegressor |
SGD |
快 |
快 |
是 |
⩾2 |
是 |
SGDRegressor |
Mini-BGD |
快 |
快 |
是 |
⩾2 |
是 |
SGDRegressor |
2.多项式回归
注意:这不是多项式插值.
首先考虑特征的属性值只有一个的情况,在线性插值中,我们的模型预测值为 y^=θ0+θ1x,而在 d 次的多项式回归中,预测模型转化为
y^=θ0+θ1x+θ2x2+⋯θdxd
相当于在原有属性 x 的基础上扩充进新的属性值 x2,x3,⋯,xd.
当属性值个数为 n=2 的时候,d=3 次多项式回归,需要考虑不同属性之间的组合,所以全部属性值为 x13,x12x2,x1x22,x23, x12,x1x2,x22,x1,x2,1,总共 10=(22+3) 个.
类似地,当 n=3, d=2 时,全部属性值为 x12,x1x2,x1x3,x22,x2x3,x32,x1,x2,x3,1,总共 10=(33+2) 个.
可以证明,当特征属性个数为 n,最高幂次为 d 的多项式回归中,最终扩充得到的属性值有 (nn+d)=n!d!(n+d)! 个.
求解多项式扩充得到的属性值个数
首先考虑 n 个属性值时,齐次为 m 次的组合总共有多少,我们可以将问题转化为小球染色问题:总共有 m 个球,染上 n 中颜色,可以有颜色一次都不用.
该问题,就是可以有空位的隔板法,总共有 n−1 个隔板,隔出来 n 个空间,每个空间中的小球个数表示顺次表示每个属性值的幂次,由于可以有空位,所以先补上 n 个小球,然后转化为没有空位的隔板法,所以总共有 (n−1m+n−1) 中组合.
然后对于 d 次多项式回归,包含从 0∼d 次的全部齐次项,所以总共有
m=0∑d(n−1m+n−1)=(nd+n)=n!d!(n+d)!
上述第一个等号使用了 曲棍球恒等式(Hockey Stick Identity),证明思路:每次固定选取一个元素,然后在选取集合中选取剩余的元素,并依次递增选取集合.
正则化线性模型
在原有线性模型基础上加入不同的正则化项即可得到不同的正则化模型,记 w=(θ1,θ2,⋯,θn)T(不包含偏置项), 以下三种正则化模型分别对应 w 的 l2范数,l1 范数和他们的线性组合.
正则化算法 |
正则化项 |
岭回归(Ridge) |
l2 范数,21∑i=1nθi2=21∣w∣22 |
Lasso回归 |
l1 范数,∑i=1n∣θi∣=∣w∣1 |
弹性网络 |
l1,l2 范数的线性组合,r∣w∣1+21−r∣w∣22 |
在正则化项前的系数 α 称为正则化系数,用来控制模型正则化程度.
由于正则化线性模型对特征的缩放敏感,规模较大的特征值可能导致对应的参数值较大,所以正则化项同样较大,对特征缩放敏感. 故正则化模型大多都需要特征缩放.
岭回归
岭回归的成本函数为
J(θ)=MSE(θ)+α21i=1∑nθi2=MSE(θ)+2α∣∣w∣∣22
求解岭回归的梯度值,从而可以使用梯度下降法进行求解:
∇θJ(θ)=∇θMSE(θ)+αw
同样可以求解岭回归的闭解:
θ^=(XTX+αA)−1XTy(2.1)
其中 A=⎣⎢⎢⎢⎢⎡00⋮001⋮0⋯⋯⋱⋯00⋮1⎦⎥⎥⎥⎥⎤ 为左上角为 0 的 (n+1)×(n+1) 单位阵.
Lasso回归
Lasso回归的成本函数为
J(θ)=MSE(θ)+αi=1∑n∣θi∣=MSE(θ)+α∣∣w∣∣1
Lasso回归与岭回归的区别:由于 l1 范数对较小的的抑制比 l2 范数更强,所以Lasso回归更倾向于完全消除掉最不重要的特征的权重(也就是将它们置为0).
由于绝对值函数 ∣w∣ 的导数在 0 处并不存在,但是可以用广义导数的来定义,在广义函数意义下有 ∣x∣′=sign(x),其中 sign(x)=⎩⎪⎪⎨⎪⎪⎧−1,0,1,x<0,x=0,x>0.
|x| 的广义微分求解
设 f(x)=∣x∣={−x,x,x<0,x>0.,对任意的试验函数 φ∈D(R),有
⟨f′,φ⟩== −⟨f,φ′⟩=−∫Rfφ′dx=−∫0∞xφ′dx+∫−∞0xφ′dx ∫0∞φdx−∫−∞0φdx=⟨H(x)−H(−x),φ⟩=⟨sign(x),φ⟩
所以在广义函数意义下,有 ∣x∣′=sign(x).
所以Lasso回归的梯度为:
∇θJ(θ)=∇θMSE(θ)+α⎣⎢⎢⎢⎢⎢⎢⎡0sign(θ1)sign(θ2)⋮sign(θn)⎦⎥⎥⎥⎥⎥⎥⎤
由于 sign 的逆函数无法求得,所以Lasso没有的闭解式.
注意:由于Lasso回归的梯度中存在 \sign 函数,导致梯度的范数大小总是较大,所以可能导致在最优解附近反弹,因此需要逐渐降低学习率 η,使得算法收敛.
弹性网络
弹性网络的成本函数为
J(θ)=MSE(θ)+rα∣∣θ∣∣1+21−rα∣∣θ∣∣22
其中 r 称为混合比.
- 当 r=0 时,弹性网络等价于岭回归.
- 当 r=1 时,弹性网络等价于Lasso回归.
总结
正则化有总比没有强,避免使用纯线性回归. 岭回归作为默认选择,当实际用到的特征数目较少,可以倾向于Lasso回归或者弹性网络,因为它们会将无用的特征权重降为 0.
一般来说,弹性网络优于Lasso回归,因为当特征数量超过训练集大小,或者几个特征强相关时(梯度范数一直较大),Lasso回归可能非常不稳定(发散).
3.Logistic回归
Logistic回归是在线性回归模型的基础上,加入了Logistic函数,从而将模型的输出值转化为概率分布,从而用于解决二分类问题的一种模型. 我们将标签为 1 的样本称为正例,标签为 0 的样本称为负例.
下文中的 x 都是增加偏置项后的特征向量.
记logistic函数为 σ(⋅),也称为sigmoid(S型函数),定义式如下
logistic(t)=σ(t)=1+e−t1
记线性模型的输出为得分 t,则对正例的估计概率 P(y=1∣x,θ) 为
p^=σ(t)=σ(θTx)
模型预测值为
y^={0,1,p^<0.5 或 t<0,p^⩾0.5 或 t⩾0.
一般将模型输出的分数 t 记为logit原因:由于 σ(t)=p^,而 σ 的反函数正好是对数几率(log odds),即(可以通过代入验证下式成立)
σ−1(p)=logistic−1(p)=logit(p)=log(1−pp)=t
对数几率logit:正类别的估计概率与负类别的估计概率之比的对数.
单个训练样本的logistic回归成本函数定义如下(负估计概率的对数似然)
J(θ)={−log(p^),−log(1−p^),y=1,y=0.
logistic回归的成本函数为
J(θ)=−m1i=1∑m[y(i)log(p^(i))+(1−y(i))log(1−p^(i))]
上述成本函数是通过将后验概率 y^ 作为 y=1 的估计,使用对数极大似然法求解得到的,证明可见下文.
由于我们用 p^ 作为后验概率估计,即 P(y=1∣x,θ)=p^,则 P(y=1∣x,θ)=1−p^,于是大小为 m 的训练集对应的对数似然为
l(θ)=i=1∑mlogP(y(i)∣x(i),θ)(3.1)
下面我们以一个样本为例,分析对数似然函数,由于 y∈{0,1},则
P(y∣x,θ)=yP(y=1∣x,θ)+(1−y)P(y=0∣x,θ)=yp^+(1−y)(1−p^)
代入表达式 y=1+etet 可得 P(y∣x,θ)=1+ety⋅et+(1−y),于是对数似然为
logP(y∣x,θ)=y∈{0,1}== log(y⋅et+(1−y))−log(1+et) yt−log(1+et) ylogp^−ylog(1−p^)+log(1−p^) ylogp^+(1−y)log(1−p^)(3.2)
代回到 (3.1) 式,由于需要转化为极小化问题,在前面加上负号,并对每个样本进行平均后,我们就得到了logistic回归的成本函数.
在 (3.2) 式中,红色标记出来的式子便于进一步求解对 θ 的导数,绿色式子则更容易记忆.
我们将使用梯度下降法对logistic成本函数进行优化,并说明该问题为凸优化问题,将 t=θTx 代入到 (3.2) 式中红色式子中,可得
∂θ∂P(y∣x,θ)=== ∂θ∂[yθTx−log(1+eθTx)] yx−1+eθTxeθTxx (y−p^)x
所以logistic成本函数对 θ 的梯度为
∂θ∂J(θ)=m1i=1∑m(p^(i)−y(i))x(i)(3.3)
可以发现,logistic成本函数对 θ 的梯度与线性回归中MSE对 θ 的梯度 (1.2) 式基本相同.
下面我们通过证明 J(θ) 的二阶偏导数非负,以证明logistic回归问题是凸优化问题,即成本函数对参数 θ 是凸函数:
−∂θ∂θT∂2logP(y∣x,θ)=== −∂θT∂[yx−1+e−θTxx] (1+e−θTx)2e−θTxxxT p^(1−p^)xxT⩾0
4.Softmax回归
我们对logistic回归进行推广到多维分类问题上,设总共有 K 个类别.
在多维分类问题中,如果使用数字对样本标签进行编号,例如 0,1,2,...,K−1,则模型会认为标签数值靠近的样本具有类似的性质,而这往往并不正确(需要考虑到特征之间的关系),所以我们往往使用one-hot向量的方法对多类别标签进行编号.
one-hot编码,具体来说,若类别属于 k(从 0 开始编号),则对应的one-hot向量为
y=(k个0,⋯,0,1,K−k−1个0,⋯,0)T
下文中的 x 仍然是加上偏置项后的特征向量.
还是利用线性模型作为分数预测,只不过这需要预测 k 个分数,所以参数向量总共会有 k 个,可以表示为参数矩阵的形式 Θ=(θ(1),θ(2),⋯,θ(K))T∈RK×(n+1),则第 k 类预测的分数为
tk(x)=(θ(k))Tx=[Θx]k
[Θx]k 表示先计算出 Θx 的结果后,取第 k 维分量.
求出每一类的得分之后,就可以通过softmax函数计算属于第 k 类的概率 p^k(softmax是 RK 空间中的函数)
p^k=σ(t(x))k=∑j=1Kexp(tj(x))exp(tk(x))
logistic函数正好与softmax函数等价(将softmax预测分数向量记为 (t,0)T,其中 t 是logistic回归中的分数,则softmax函数等于logistic函数),所以称softmax回归是logistic回归在多维分类下的推广. 进一步,softmax的成本函数与对参数的梯度,均与logistic类似.
所以softmax和logistic函数均用 σ 表示,如果作用在标量上则是logistic函数,如果作用在向量上则是softmax函数.
我们将预测概率中概率最高的类别作为分类结果:
y^=kargmaxσ(t(x))k=kargmaxtk(x)=kargmax((θ(k))Tx)
softmax的成本函数为交叉熵:
J(Θ)=−m1i=1∑mk=1∑Kyk(i)log(p^k(i))=−m1i=1∑mlog(p^ki(i))
其中 ki 表示第 i 个样本所属的类别,也就是说,对应的one-hot标签 y(i) 只有在 ki 维分量是 1 其他均为 0. 上式中第二个等号只需将one-hot具体形式代入即可得到.
由于要使用梯度下降法对softmax成本函数进行优化,并说明该问题为凸优化问题,还是先考虑单个样本的情形,记交叉熵损失函数为 L(Θ)=∑i=1Kyilogp^k,为了使推导美观,不妨先令特征维数 n=1,并用 θk 表示 θ(k),则
∂θk∂L(Θ)===∑i=1Kyi=1 ∂θk∂i=1∑Kyilog∑j=1Keθjxeθkx ykeθkx∑j=1Keθjx(∑j=1Keθjx)2eθkx∑j=1Keθjx−e2θkxx+i=k∑yieθix∑j=1Keθjx(∑j=1Keθjx)2−eθixeθkxx ykx−yk∑j=1Keθjxeθkxx−i=k∑yi∑j=1Keθjxeθkxx ykx−∑j=1Keθjxeθkxx=(yk−p^k)x
对于一般的维数 n,类似可得参数向量的梯度为(仅需将 x 从标量改为向量形式)
∇θ(k)L(Θ)=(yk−p^k)x
建议先推导 n=1,K=2,3 时的简单形式,然后类比推导一般情况下的表达式.
于是可以得到softmax成本函数对参数向量的梯度
∇θ(k)J(Θ)=m1i=1∑m(p^k(i)−yk(i))x(i)
可以发现,softmax成本函数对 θ 的梯度与logistic回归梯度完全相同,与线性回归梯度基本相同,分别为 (1.2),(3.3) 式.
通过求 L(Θ) 对 θ 的二阶导数,可以证明该softmax回归是凸优化问题:
−∂θ(k)∂θ(k)T∂L(Θ)=== (∑j=1keθ(j)Tx)2eθ(k)Tx(∑j=1keθ(j)Tx)−e2θ(k)TxxxT (p^−p^2)xxT p^(1−p^)xxT⩾0
代码实现
英文代码参考github - handson-ml2/04_training_linear_models.ipynb,下面内容为自己重新实现的Jupyter Notebook代码,源代码:github - 4.linear_models.ipynb. 由于重新配置过Jupyter,生成的图片主题为暗色调,配置Jupyter方法请见blog.
1.线性回归
标准方程求闭解
构造出带有偏置项的特征矩阵 X 后,通过闭解式得到最优的参数向量:θ^=(XTX)−1XTy.
np.ones((n, m))
可以创建形状为 (n, m)
全为1的矩阵.
np.c_[a, b]
可以将矩阵 a,b
按照列进行并排放置.
np.linalg.inv()
可以求解逆矩阵.
或者使用 sklearn
中的 sklearn.linear_model.LinearRegression
使用SVD分解方法求解 XTX 的伪逆.
通过调用 intercept_
获得截距(偏置项),coef_
获得系数.
而 sklearn.linear_model.LinearRegression
是基于 np.linalg.lstsq()
最小二乘函数得到的,也可通过 np.linalg.pinv()
直接计算伪逆.
梯度下降
∇θjMSE(θ)=m2i=1∑m(y^(i)−y(i))xj(i)=m2XT(y^−y)
批量梯度下降(Batch Gradient Descent, BGD)
随机梯度下降(Stochastic Gradient Descent, SGD)
以一个样本计算梯度并进行更新,需要随迭代次数 t 的增加逐渐降低学习率,使用以下方法计算学习率
η(t)=t1+tt0
使用 sklearn.linear_model.SGDRegressor
可以便捷地达到相同的效果,其中也有学习率递降策略由 learning_rate
控制,由于未使用正则化项,所以令 penalty=None
.
小批量梯度下降(Mini-batch gradient descent, Mini-BGD)
2.多项式回归
使用 sklearn.preprocessing.PolynomialFeatures(degree, include_bias=False)
可以生成最大幂次为 degree
的全部特征组合,include_bias=False
表示不包含偏置项,在线性回归的时候默认带了偏置,此处就无须该项.
使用 sklearn.preprocessing.StandardScaler
进行标准化处理,sklearn.pipeline.Pipeline
生成数据预处理和模型训练的流水线.
正则化线性模型
岭回归
使用 sklearn.linear_model.Ridge(alpha)
可以实现岭回归,使用 l2 正则项,其中 alpha
是正则化系数.
Lasso回归
使用 sklearn.linear_model.Lasso
实现Lasso回归,使用 l1 正则项,用法与 Ridge
类似.
弹性网络
使用 sklearn.linear_model.ElasticNet(l1_ratio)
实现弹性网络,其中 l1_ratio
表示 l1 范数所占的权重,正则化项的具体表示形式如下:
α(l1ratio∣∣w∣∣1+21(1−l1ratio)∣∣w∣∣22)
3.Logistic回归
使用经典Iris数据集,包含150个鸢尾花,来自三个不同品种(山鸢尾,变色鸢尾,弗吉尼亚鸢尾),数据特征属性总共4个,分别为包含萼片的长度与宽度,花瓣的长度和宽度.
先使用花边宽度单个属性值对品种是否是弗吉尼亚鸢尾花进行预测,再使用花瓣宽度和长度两个属性值进行预测,分别绘制出决策边界和样本点图像.
使用 sklearn.linear_model.LogisticRegression(C)
实现Logistic回归,默认使用 l2 正则化项,正则化系数为 1/C,如果不想使用正则化,可将 C 设置为较大值.
4.Softmax回归
也是使用 sklearn.linear_model.LogisticRegression(multi_class='multinomial')
,只需将 multi_class
设置为 multinomial
即可使用Softmax回归求解多分类任务(否则可能使用“一对多(OvR)”分类策略)
特征属性仍然选取两个属性:花瓣长度,花瓣宽度. 分类目标为三种鸢尾花,绘制预测为“变色鸢尾”的等概率边界线.