凸优化
本次作业主要用来练习逻辑回归相关的优化问题。通过完成作业,你讲会学到: 1. 逻辑回归的梯度下降法推导 2. 如何判断逻辑回归目标函数为凸函数。
假设我们有训练数据$D=\{(\mathbf{x}_1,y_1),...,(\mathbf{x}_n,y_n)\}$, 其中$(\mathbf{x}_i,y_i)$为每一个样本,而且$\mathbf{x}_i$是样本的特征并且$\mathbf{x}_i\in \mathcal{R}^D$, 代表样本数据的标签(label), 取值为$0$或者$1$. 在逻辑回归中,模型的参数为$(\mathbf{w},b)$。对于向量,我们一般用粗体来表达。 为了后续推导的方便,可以把b融入到参数w中。 这是参数$w$就变成 ,也就是前面多出了一个项$w_0$, 可以看作是b,这时候每一个$x_i$也需要稍作改变可以写成 ,前面加了一个1。稍做思考应该能看出为什么可以这么写。
请回答以下问题。请用Markdown自带的Latex来编写。
(a) 编写逻辑回归的目标函数
请写出目标函数(objective function), 也就是我们需要"最小化"的目标(也称之为损失函数或者loss function),不需要考虑正则。 把目标函数表示成最小化的形态,另外把$\prod{}^{}$转换成$\log \sum{}^{}$
$L(w)=$
(b) 求解对w的一阶导数
为了做梯度下降法,我们需要对参数$w$求导,请把$L(w)$对$w$的梯度计算一下:
$\frac{\partial L(w)}{\partial w}=$
(c) 求解对w的二阶导数
在上面结果的基础上对$w$求解二阶导数,也就是再求一次导数。 这个过程需要回忆一下线性代数的部分 ^^。 参考: matrix cookbook: https://www.math.uwaterloo.ca/~hwolkowi/matrixcookbook.pdf, 还有 Hessian Matrix。
$\frac{\partial^2 L(w)}{\partial^2 w}=$
(d) 证明逻辑回归目标函数是凸函数
试着证明逻辑回归函数是凸函数。假设一个函数是凸函数,我们则可以得出局部最优解即为全局最优解,所以假设我们通过随机梯度下降法等手段找到最优解时我们就可以确认这个解就是全局最优解。证明凸函数的方法有很多种,在这里我们介绍一种方法,就是基于二次求导大于等于0。比如给定一个函数$f(x)=x^2-3x+3$,做两次 求导之后即可以得出$f''(x)=2 > 0$,所以这个函数就是凸函数。类似的,这种理论也应用于多元变量中的函数上。在多元函数上,只要证明二阶导数是posititive semidefinite即可以。 问题(c)的结果是一个矩阵。 为了证明这个矩阵(假设为H)为Positive Semidefinite,需要证明对于任意一个非零向量$v\in \mathcal{R}$, 需要得出$v^{T}Hv >=0$ 请写出详细的推导过程:
// TODO 请写下推导过程
$L(w)=\sum{i}^{m}{y{i}^{}log\tilde{y}}+(1-y{i})log(1-\tilde{y}),\tilde{y}=\frac{1}{1-e{}^{-(wx+b)}}$
$\frac{\partial L}{\partial w}=\sum{i}^{n}{(A{i}^{}-y{i}^{})*x{i}^{}},A=\frac{1}{1-e^{-(wx+b)}}$
用向量表示即
$\frac{\partial^{2}L}{\partial^{2}w}=\sum{i}^{n}\frac{x{ij}x{ik}e^{-(wX{i}+b)}}{A^{2}}=\sum{i}^{n}x{ij}x{ik}A{i}(1-A_{i})$
$H=\left( \begin{array}{ccc} x{11}& ……&…… & x{1n} \\ …… &&&…… \\ …… & &&…… \\ x{n1} &……&…… &x{nn} \end{array} \right)\left( \begin{array}{ccc} A{1}(1-A{1})& …… & …… & 0 \\ 0 &A{2}(1-A{2})&& \\ …… & &……& \\ 0 &……&…… &A{2}(1-A{2})\\ \end{array} \right)\left( \begin{array}{ccc} x{11}& ……&…… & x{n1} \\ …… &&&…… \\ …… &&&…… \\ x{1n} &……&…… &x{nn} \end{array} \right)=X^{T}VX$
由于V中对角线上的值>0,因此矩阵H>=0,故逻辑回归函数的损失函数为凸函数