【算法】一篇入门之-信息量是什么

作者 : 老饼发表日期 : 2022-09-22 01:48:13 更新日期 : 2024-12-20 05:36:45

本站原创文章，转载请说明来自《老饼讲解-机器学习》www.bbbdata.com

信息量是机器学习中常用的概念，例如决策树、逻辑回归等模型就是基于信息量而提出的

本文讲解香农信息量的定义、计算公式和推导过程，以及信息量在机器学习中的意义

通过本文，可以知道信息量是什么，如何计算以及在机器学习中应该如何理解信息量

01. 信息量是什么

本节讲解香农信息量是什么及香农信息量是如何定义出来的

信息量的定义与计算公式

信息量是信息的量化指标，用于衡量信息的大小，最常用的是香农信息量
香农信息量的定义与计算公式如下：

               其中，：事件发生的概率
                     ：事件所包含的香农信息量
可以看到，香农信息量与事件的概率成反比，概率越小的事件，信息量就越大
例如有人告诉我"明天太阳会升起来"，我就没能从中获得什么信息量，这事概率太大了

✍️笔者小故事：关于信息量的非客观性
笔者刚开始接触信息量时，曾经疑问"为什么这件事的信息量是 -ln(p)？”
后来才明白，信息量并不是一种客观存在的"量" ，它只是一种人为的定义

所以，只是用香农定制的这把"尺子"来度量事件的信息大小时的值
它既不是客观存在的量，也不是"信息量"的唯一值，而仅仅只是"香农信息量"

机器学习与信息量

信息量主要用于衡量一个事件中所包含的信息的多少
因此，在知道一个事件后，如果获得的信息量越多，则代表事前对它越一无所知
机器学习中，建立模型的目的就是希望事前用模型获得更多关于样本y值的信息量

事前通过模型获取越多y值的信息量，事后知道y真实值时所获得的信息量就越少
也可以把模型带给我们关于y的信息量，看作对y的了解程度
把事后知道y的真实值所获得的信息量，看作"y的震惊程度"
当模型预测结果与真实值一致时，真相就与我们预期一致，就没什么好惊讶的

02. 信息量是如何定义出来的

本节讲解香农信息量是如何定义出来的，并从中了解它的特性

香农是如何定义信息量的

香农信息量是香农定义出来的，他对信息的量化主要有三步：
👉1. 确定信息是具有可量化性的
👉2. 探究信息量化公式应该满足的特性
👉3. 根据量化值的特性，反推出信息量的定义公式
   信息的可量化性
信息是一个抽象的概念，但我们隐约可以感觉，信息是有大小之分的
例如“小明爱吃榴莲”显然比“小明爱吃米饭”这件事的信息量更多

进一步仔细探究后，会发现信息量的大小，与事件发生的概率负相关
即知道一个越小概率发生的事件，从中所能获取到的信息量就会越大
既然信息有了大小之分，于是香农(Shannon)决定正式把它量化
信息量需要满足的特性
既然要把信息量化，那么，信息量应该满足什么特性呢？
香农总结后，认为需要满足以下三个特性：
  1. 单调性
   从日常直觉总觉来说，概率越小的事情，信息量应该越大
也就是说，信息量应该与事件发生的概率负单调
  2. 非负性
信息量的最小值应该为0，不能是负数
  3. 累加性
    两个独立事件各自的信息量之和,
需要与这两个独立事件构成的整体事件的信息量相等
         例如，"小明爱吃米饭”和“小明是小学生”的信息量之和
应该等于“小明是个爱吃米饭的小学生”

    香农对信息的量化过程
不妨用h来表示信息量，由它与概率的负单调性
可以知道，h应该有以下形式：

   其中, F是负单调函数
又由于累加性，独立事件的总信息等于独立事件的信息和
可知，h应该满足：

即负单调函数应满足：

而刚好满足这条件，于是香农用作为
则，信息量定义为：

好了，信息量的概念与意义就写到这了~

End

添加评论