本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com
决策树的内容比较混杂,在学习决策树时,需要按步就班学习才能更容易理解
本文不涉及决策树模型原理,主要给大家简单对决策树进行摸底
同时梳理学习决策树模型的路线和学习重心,为后面正式学习决策树作铺垫
本节简单介绍有哪些决策树,作为入门的开始
决策树的种类
决策树主要有两支线:
(1) CART: classification and regression tree,分类与回归树
即CART自身包括了分类树与回归树
(2) ID3系列: ID3算法,C4.5算法,C5.0算法
详情如下:
ID3决策树系列起源更早,但目前使用更多、更好用的是CART树
ID3决策树在实际中很少使用,大部分软件包也不支持
备注:日常人们所说的决策树,通常是指CART决策树,甚至是指CART决策树中的分类树
本节给出学习决策树的相关路线建议
决策树学习路线
由于决策树包含了两条路线,且每条路线有各自的发展,导致决策树的知识非常混乱
因此,学习路线对学习决策树非常重要,错误的学习路线,容易将决策树众多概念混淆在一起
一条明晰的路线,可以让决策树入门由简到繁,起到学习的事倍功倍
决策树的学习路线
决策树的学习路线建议如下:
简单来说,先学习CART分类树,再学习CART回归树,最后学习ID3和C4.5
学习完后,再将各个决策树进行比较,辨识共同之处与差异之处
决策树-学习重心
CART分类树需要重点掌握,因为日常一般都是用它,所以需要紧紧掌握它
其次是CART回归树,虽然一般不使用它,但有些算法依赖它,所以也要学习
最后是ID3和C4.5,这两个算法只需要简单了解就可以了
现在大部分软件包都不支持ID3和C4.5,也就是说,要使用ID3必须自己编写程序
所以ID3和C4.5可以不完全掌握,建议了解一下思路、概念就可以了
笔者的偏见
声明:下面是笔者的偏见,仅作为一种声音,不作绝对参考
笔者的偏见: 学习禁忌-先学ID3
1.ID3又难学,又不重要
很多网文中,都没有指出ID3的非重要性, 但事实上ID3现在基本很少用了
(这里的ID3是指ID3支线的决策树算法,包括C4.5)
ID3看着简单,其实没有CART好学,ID3往往还没学会,就透支了所有激情
所以笔者不建议过于执着学习ID3,直接上手cart决策树更重要
2.ID3学不精,会影响CART的理解
另一方面,ID3很多概念已经被渐渐抛弃了,而ID3的许多概念又与CART并不相同
如果先学习ID3,又学得不够通透的话,很容易被ID3系列的概念影响到CART的学习
✍️ 为什么说ID3难学?
1. ID3算法的缺陷
ID3有比较明显的缺陷,一个缺陷越多的东西,对于逻辑紧密的同学就越难理解
2. 引入了熵
ID3中引入了熵的概念,熵本来就是一个抽象的东西,这就增加了一道门槛
3. 所学非日常所用
ID3并非日常所用的决策树,这就很容易在学习时产生信息验证偏差
例如,ID3只支持枚举变量,而我们用的决策树(CART)支持连续变量
这就很容易以为ID3也能支持连续变量,然后不断思考ID3是怎么支持连续变量的
4. 软件不支持
软件并没有实现ID3,也就是在实现没有较好的统一标准进行参考
看野包实现的流程,那是五花八门,众说纷芸的
好了,以上就是决策树的入门指引了,让我们开启决策树的学习之路吧!
End