机器学习入门教程

【概念】信息量是什么

作者 : 老饼 发表日期 : 2022-12-15 21:35:52 更新日期 : 2025-03-30 13:51:41
本站原创文章,转载请说明来自《老饼讲解-机器学习》www.bbbdata.com



信息量是信息学中的一个概念,同时也是机器学习中的一个基本知识,

例如决策树、逻辑回归等模型和交叉熵损失函数就是基于信息量而提出的,

由于信息量概念在机器学习中如此地广泛使用,本文讲解信息量的相关概念与计算公式




  01. 信息量是什么   




本节讲解香农信息量是什么及香农信息量是如何定义出来的




     信息量的定义与计算公式    


信息量是对信息的一种量化指标,用于衡量信息的大小,
信息量中最常用的就是香农信息量,香农信息量的定义与计算公式如下:
  
其中,是事件发生的概率,则为事件所包含的香农信息量
从式中可以看到,事件的香农信息量与事件的概率成反比,
 香农信息量
即一件事发生的概率越小,则包含的信息量越大





    ✍️笔者小故事:关于信息量的非客观性    


笔者初接触时曾经疑问"为什么这件事的信息量是
后来才明白信息量并不是一种客观存在的"量",是不可能探究出它"真实的量"的
信息量只是一种人为的定义,最多只能讨论这种人为定义合不合理
 香农信息量对信息的度量
信息量的定义可以有很多种,但香农的定义目前是较为实用且合理的
也就是说,只是用香农定制的这把"尺子"来度量一个事件的信息大小时的值
 它既不是一个客观量,也不是"信息量"的唯一值,而仅仅是"香农信息量"






  02. 信息量是如何定义出来的   




本节讲解香农信息量是如何定义出来的,并从中了解它的特性





      香农是如何定义信息量的    


信息量首先是香农定义出来的,他对信息量的量化主要有三步:
 👉1. 确定信息是具有可度量性的                                           
👉2. 探究信息量化公式应该满足的特性                                
👉3. 根据量化值的特性,反推出信息量的定义公式               

   信息的可度量性   

信息是一个抽象的概念,但我们隐约可以感觉,信息是有大小之分的,
 例如,“小明爱吃榴莲”明显就比“小明爱吃米饭”这件事的信息量更多
因为是个人都爱吃米饭,这事情没什么信息量,而榴莲就不是人人都爱吃
 
信息量与概率的关系
仔细探究后会发现,信息的大小与事件发生的概率负相关
即知道一个越小概率的事,获得的信息量越大
既然信息有了大小之分,于是香农(Shannon)决定正式把它量化
信息量需要满足的特性
 
既然要把信息量化,那么,信息量应该满足什么特性呢?
香农总结后,认为需要满足以下三个特性:
 
 1. 单调性                                                                               
   从日常直觉总觉来说,概率越小的事情,信息量应该越大
也就是说,信息量应该与事件发生的概率负单调           
  2. 非负性                                                                            
信息量的最小值应该为0,不能是负数                          
  3. 累加性                                                                             
   
 两个独立事件各自的信息量之和,                                     
需要与这两个独立事件构成的整体事件的信息量相等    
         例如,"小明爱吃米饭”和“小明是小学生”的信息量之和   
应该等于“小明是个爱吃米饭的小学生”             
    香农对信息的量化过程     
 
不妨用h来表示信息量                                                          
        由它与概率的负单调性,可以知道,h应该有以下形式:              
        ,其中 F是负单调函数
              
      又由累加性,两个独立事件的整体事件信息等于两个独立事件的信息和,           
可知,h应该满足                                      


                   
 也即需要找一个负单调函数F,使它满足                               
               
 刚好满足这条件,于是香农用作为                         
正式定义信息量为:                                                           
  






  03. 信息量在机器学习中的意义   




本节讲解在机器学习如何理解信息量





     在机器学习中如何理解信息量      


信息量主要用于定义一件事件所包含的信息的多少
而在机器学习中,它具有其特殊意义,下面我们讲述机器学习中如何看待信息量
机器学习与信息量
如果我们对一件事情完整掌握,那么它对我们的信息量永远都为0
而如果对事件越模糊,则事件发生时就会越出乎我们意料之外,所含信息量就越多
 机器学习与信息量
而机器学习的目的,往往就是依靠模型去确定一个事件(样本)的真实面目
因此,在机器学习中,就是企图用模型来获取更多关于y的信息量
这样,y所能带给我们的信息就会越少,也即我们能在事前更加掌握了y
在机器学习中如何直观理解信息量
在机器学习中,我们可以用"事件的震惊程度"来理解"事件的信息量"
 信息量的直观意义
我们通过模型不断地降低事件的信息量,这样可以使事件发生时,就再也震惊不到我们了
 把"信息量的大小",理解为"事件发生时给我们的震惊程度",往往更加具体和形象






好了,信息量的概念与意义就写到这了~








  End  


   

联系老饼