搜索
您的当前位置:首页正文

Day 677:机器学习笔记(6)

来源:知库网

决策树,是一棵树,每个节点(除了叶子节点)都是对某个特征的判定(决策),最终到达叶子,叶子可以是某个分类,或者是某个回归函数。

上述就是对是否要接受offer的决策树。

决策树构建的关键就在于把各特征的值生成出来。特征本身是人为选择的。

决策树的构建过程是迭代的。每轮迭代选择不同的特征,将样本数据划分成不同类别。选择特征的目标就是尽可能让一个集合中的样本属于同一类别。

常用的算法有ID3、C4.5、CART。

ID3是以分裂后信息越确定为目标的,算法上以信息增益作为度量(信息增益反映的是给定条件后不确定性被减少的程度),这样导致取值多的特征更容易被选中作为分裂特征。

C4.5改进了ID3的上述不足。它选用的度量(信息增益率)会惩罚取值多的特征。由于它优秀的性能,是机器学习中最常用的算法之一。

CART与ID3以及C4.5的区别是,后两者是分类树,CART不仅可以用来分类,还能用来回归。

Top