机器学习 李宏毅 笔记
Intro
- Supervised Learning: 需要大量 training data
- Structured Learning: 输出具有结构的结果,例如语句
Lecture 1: Regression - Case Study
- Regression: 输出是一个 scalar
妙蛙种子 cp 值的例子
对可微分的 f,可以用梯度下降法
解最优(另:这可以直接最小二乘求最优):
单参数做法:
双参数做法:
如此迭代
黄色:f 的梯度方向
担心:初始值选取不同可能会陷入不同的鞍点(此时可能只到达局部最优)
在线行回归中不必考虑,因为 Loss Function 是 convex 的
后面讲拟合的误差,以及模型不同导致的拟合误差差异:
圆圈代表了模型的空间,模型次数越高,空间越大但误差也越大
所以要选择合适的 Model:
再考虑物种的情况,加入 Xs。预测与决策的内容(4-5: 含虚变量的回归)Xs 相当于一个决定截距的虚变量
本节的话除了思想,基本都是很基本的知识.
Regularition
确定 Loss function 时,除开 error 项(第一项),往往加上第二项,这样确定下来的拟合函数系数可以尽量小,函数也会更加平滑:
λ 的选取:
合适即可
总结:
Demo:
演示了梯度下降法逼近最优解的过程
Lecture 2: Error 来源 - Model 选取
数据误差的构成:
表现在 Loss Function 函数上:
1: 分布较为集中(方差小),但是距离 f hat 还是有距离,偏差较大 = 代表简单的 Model
2: 分布散乱(方差大),但是偏差小 = 代表复杂的 Model
蓝色圈:最初选定的 Model set 集合。例如,采用一次回归注定了这个 set 的偏差较大
随着模型次数增加,偏差会越来越小(瞄得越来越准),但是分布会更加散乱
同时考虑的时候,可以得到蓝色的线,采取最合适的点代表的模型
如何减小误差
对 Bias:• Add more features as input • A more complex model
简单来讲就是换个好点的模型
对 Var: · 更多的训练数据 · 采用规范化(加上 λ(w𝙞)^2 项)
模型的选择上的问题:
不应该:用手上已有的 Testing Set 去评价 model 好坏,因为真正的 Testing Set 全集是我们不具有的,真正的 set 下评价可能会不同
通过交叉验证确定最优 Model
两个 Demo:
1:表明局部最优和全局最优的关系
2:表明采用梯度下降法,说明存在 f 会不降反增的 case