Skip to content

Stanford机器学习笔记——Linear Regression

1. 单一变量线性回归

假设:

hθ(x)=θ0+θ1x

则 cost function 为:

J(θ0,θ1)=12mi=1m(hθ(x(i))y(i))2

目标是:

min(θ0,θ1)J(θ0,θ1)

同时更新 θ0θ1

θj:=θjαθjJ(θ0,θ1)

即:

θ0:=θ0α1mi=1m(hθ(x(i))y(i))θ1:=θ1α1mi=1m(hθ(x(i))y(i))x(i)

其中 α 为学习速率:

  • α 过小,梯度下降缓慢
  • α 过大,则可能跳过最小值,导致收敛失败,甚至发散

2. 多变量线性回归

假设:

hθ(x)=θTx=θ0x0+θ1x1+θ2x2+...+θnxn

则 cost function 为:

J(θ)=12mi=1m(hθ(x(i))y(i))2

目标是:

min(θ)J(θ)

更新 θ

θj:=θjαθjJ(θ)

即对于 j=0,1,2,...,n

θj:=θjα1mi=1m(hθ(x(i))y(i))xj(i)

假设有 m 个样本,每个样本有 n 个特征,即:

X=[1x1(1)...xn(1)1x1(2)...xn(2)............1x1(m)...xn(m)],θ=[θ0θ1...θn],y=[y(1)y(2)...y(m)]

则每次梯度下降运行后:

θ:=θα1mXT(Xθy)

3. 特征标准化

x=xxσ

其中 σ 为标准差:

σ=1m1i=1m(x(i)x)2

4. Normal Equation

θ=(XTX)1XTy

可以简单理解为,理想情况下:

Xθ=y

因此:

Xθ=yXTXθ=XTy(XTX)1XTXθ=(XTX)1XTyθ=(XTX)1XTy

对比梯度下降和 Normal Equation:

梯度下降Normal Equation
选择 α需要不需要
多次迭代需要不需要
n 比较大良好运行复杂度高,效率低