机器学习-入门教程

【导读】决策树简介与入门

作者 : 老饼 发表日期 : 2024-03-12 01:40:13 更新日期 : 2025-03-30 13:42:45
本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com



决策树的内容比较混杂,在学习决策树时,需要按步就班学习才能更容易理解

本文不涉及决策树模型原理,主要给大家简单对决策树进行摸底

同时梳理学习决策树模型的路线和学习重心,为后面正式学习决策树作铺垫




   01. 决策树入门指引-有哪些决策树   




本节简单介绍有哪些决策树,作为入门的开始




    决策树的种类    


决策树主要有两支线:
  
(1) CART: classification and regression tree,分类与回归树
 即CART自身包括了分类树与回归树
  (2) ID3系列: ID3算法,C4.5算法,C5.0算法                         
   详情如下:
  决策树的算法种类
 
ID3决策树系列起源更早,但目前使用更多、更好用的是CART树
ID3决策树在实际中很少使用,大部分软件包也不支持         
备注:日常人们所说的决策树,通常是指CART决策树,甚至是指CART决策树中的分类树








   02. 决策树入门指引-学习路线   




本节给出学习决策树的相关路线建议





  决策树学习路线  


由于决策树包含了两条路线,且每条路线有各自的发展,导致决策树的知识非常混乱
因此,学习路线对学习决策树非常重要,错误的学习路线,容易将决策树众多概念混淆在一起
 一条明晰的路线,可以让决策树入门由简到繁,起到学习的事倍功倍
 
 决策树的学习路线
 
 决策树的学习路线建议如下:
 
决策树的学习路线
 简单来说,先学习CART分类树,再学习CART回归树,最后学习ID3和C4.5  
 学习完后,再将各个决策树进行比较,辨识共同之处与差异之处
  决策树-学习重心   
CART分类树需要重点掌握,因为日常一般都是用它,所以需要紧紧掌握它
其次是CART回归树,虽然一般不使用它,但有些算法依赖它,所以也要学习
最后是ID3和C4.5,这两个算法只需要简单了解就可以了
 现在大部分软件包都不支持ID3和C4.5,也就是说,要使用ID3必须自己编写程序
 所以ID3和C4.5可以不完全掌握,建议了解一下思路、概念就可以了






     笔者的偏见    


声明:下面是笔者的偏见,仅作为一种声音,不作绝对参考
笔者的偏见:  学习禁忌-先学ID3   

1.ID3又难学,又不重要

很多网文中,都没有指出ID3的非重要性, 但事实上ID3现在基本很少用了
 (这里的ID3是指ID3支线的决策树算法,包括C4.5)
  ID3看着简单,其实没有CART好学,ID3往往还没学会,就透支了所有激情
所以笔者不建议过于执着学习ID3,直接上手cart决策树更重要

 2.ID3学不精,会影响CART的理解
 
另一方面,ID3很多概念已经被渐渐抛弃了,而ID3的许多概念又与CART并不相同
如果先学习ID3,又学得不够通透的话,很容易被ID3系列的概念影响到CART的学习 
✍️ 为什么说ID3难学?
 
1. ID3算法的缺陷                                                                                            
      ID3有比较明显的缺陷,一个缺陷越多的东西,对于逻辑紧密的同学就越难理解
 2. 引入了熵                                                                                                    
 ID3中引入了熵的概念,熵本来就是一个抽象的东西,这就增加了一道门槛
3. 所学非日常所用                                                                                         
  ID3并非日常所用的决策树,这就很容易在学习时产生信息验证偏差       
例如,ID3只支持枚举变量,而我们用的决策树(CART)支持连续变量     
      这就很容易以为ID3也能支持连续变量,然后不断思考ID3是怎么支持连续变量的

4. 软件不支持                                                                                                
 软件并没有实现ID3,也就是在实现没有较好的统一标准进行参考       
看野包实现的流程,那是五花八门,众说纷芸的                      






好了,以上就是决策树的入门指引了,让我们开启决策树的学习之路吧!










 End 




内容纠正