自信息量

从信息源获取信息的过程,就是其不确定性缩减的过程,随机事件包含的信息与其不确定性紧密相关,在统计分析中,使用概率作为衡量不确定性的一种指标。由此可以推论出:「随机事件包含信息的度量应是其概率的函数」。

信源发出了一个信息,就可以认为是一个事件发生了。在此事件发生前,此事件具有不确定性;事件发生时有惊讶度;而在事件发生后,提供了一定的信息量。因此我们需要定义一个量来描述不同的事件为我们提供的不同的信息量

从直观上来说,小概率事件发生时得到的信息量大,而大概率事件发生时得到的信息量小。因此信息量与概率应该成负相关。相互独立的事件(积事件)同时发生时得到的信息量应是各个事件单独发生时得到的信息量之和。根据以上特征,我们发现概率的负对数函数符合这样的数学特征,因此我们给出自信息量的定义。

定义

任意随机事件发生概率的对数的负值,即

定义为该事件发生时的「自信息量」。自信息量是一个随机变量,它反映了信源发出某一信息符号的不确定性。概率越低,意味着事件越不可能发生,一旦发生,得到的信息量很大,消除的不确定程度也多。自信息量的单位取决于对数选取的底。单位有比特(bit),奈特(nat)和哈特(Hart)

  • 当对数的底取 2 时,单位为比特 bit
  • 当对数的底取自然数 e 时,单位为奈特 nat
  • 当对数的底取 10 时,单位为哈特 Hart

在现代数字通信系统中,一般采用二进制的级数方式。在信息量的计算中也多采用以 2 为底的方式,一般默认以 2 为底

性质

  • 自信息量 是非负值,单调递减
  • 时,,即必然事件不提供任何信息量
  • 时,,即不可能事件提供信息量为无穷大

注意, 是一个随机量,而 的函数。所以自信息量也是一个随机变量,没有确定的值,只是对随机变量做了一个变换

例题

某地二月份天气的概率分布统计如下

这四种气候的信息量分别为

可见不同天气情况具有不同的自信息量,说明自信息量具有随机变量的性质