一、互信息量和平均互信息量

1. 信道的数学模型和分类

信道时信息传输的媒介或通道。比如电缆、光纤、无线电波等物理通道或媒介,从空间上把信息从一地传送到另一地。也可以是磁盘、光盘等存储媒介,是一种时间上的传输通道。

实际的信道可繁可简,如滤波器的输入输出、国际通信信道。信息论中研究的信道,其输入输出位置取决于研究者的兴趣。通信中的物理信道,如无线、光纤、电缆、水等,其传输的信号特性不同,技术手段不同;

信息论不研究这些信道特性和技术,而是对其抽象,建立起与各种通信相适应的信道模型。信息论研究的是信道的输入和输出之间的关系,信道的具体构成可以看成是一个黑匣子。由此,信道可以看成是一个变换器,它将输入事件 变换成输出事件 。由于噪声和干扰, 之间是统计依赖关系。

1.1 数学模型

信道的数学模型可以表示为

框图可表示为

表示了在输入为 的情况下,输出为 的概率为 。其中, 是概率论中的似然概率。注意,信道不是一个函数,而是一个统计关系。

1.2 分类

根据输入输出事件的时间特性和集合的特点可以分为

  • 离散信道:输入离散,输出离散
  • 连续信道:输入连续,输出连续
  • 半连续信道:输入和输出一个离散,一个连续
  • 时间离散的连续信道:输入和输出分别为有限个或可数无限个取自连续集的序列

根据信道输入和输出的个数可以分为

  • 两端信道:输入和输出均只有一个事件集。这是本门课研究的信道。
  • 多端信道:输入和输出中至少有一个具有两个或两个以上的事件集

根据信道接入的不同可以分为

  • 多元接入信道:多个不同信源的信息经过编码后送入同一信道传输,接收端译码后再送给不同的信宿。如在卫星通信系统中的应用。
  • 广播信道:单一输入,多个输出

按照统计特性可以分为

  • 恒参信道:统计特性不随时间变化
  • 随参信道:统计特性随时间变化

按照记忆特性可以分为

  • 无记忆信道:信道输出仅与当前的输入有关
  • 有记忆信道:信道输出不仅与当前输入有关,还与过去的输入有关

2. 互信息量

设有两个离散的符号消息集合

  • 表示信源发出的符号消息集合
  • 表示信宿接受的符号消息集合,每个符号消息相当于一个随机事件

信源发出符号信息通过信道传递给信宿,如下图

2.1 集合 的概率空间

信源 的概率空间为

这里的 是集合 中各个消息 的概率分布,它又称为先验概率。信源 的概率空间为

这里 是集合 中各个消息 出现的概率

2.2 收信者获得的信息量

当信宿接到集合 中的一个信息符号 后,接受者重新估计关于信源的各个消息发生的概率就变成条件概率 ,这种条件又称为后验概率。收信者收到一个消息后,所获得的信息量等于收到信息前后不确定度的减少量。不确定程度减少的原因,是由于受到消息前后,概率空间的概率分布改变所导致。

那么,该如何定义信道提供的信息量呢?

在收到信息前,接受者掌握的信息是直接根据先验概率中的 得到的,而在收到信息 后,收信者根据此信息可以反推信源 当时可能发出的信息是什么,也就是说,在已知 的情况下重新估计关于信源的各个消息发生的概率,也就是条件概率

我们可以认为,由于 信息的传输,不确定度从 下降到了 因此,我们对前后的信息量做差,得到

来表示信息产生的不确定度减少。或写成

值得一提的是,这里的定义选择的是「“收到信息前”减去“收到信息后”」来对信息量进行定义,收信者所获得的信息量随先验概率的增加而减少,随后验概率的增加而增加。

2.3 互信息量

定义

对于两个离散的随机事件 ,事件 的出现给出关于事件 的信息量,定义为互信息量。其定义式为

互信息量的单位与自信息量的单位一样取决于对数的底。当对数底为 2 时,互信息量的单位为比特 bit。

性质

互易性

事件 提供的有关于事件 的信息量等于由事件 提供的关于事件 信息量

证明

可为零

当事件 统计独立时,互信息量为零

此性质的意义是:当两个事件统计独立时,其相互信息量为零,这也就是说不能从观测一个事件中获得有关另一个事件的任何信息。

证明

可正可负

在给定观测数据 的条件下,事件 出现的概率称为后验概率

当后验概率 大于先验概率 时,互信息量 大于零,为正值;互信息量为正,意味着事件 的出现有助于肯定事件 的出现;

当后验概率小于先验概率时,互信息量为负值。
互信息量为负是不利的。造成不利的原因是由于信道干扰引起的。由于干扰,使估计变得更加困难,即,不确定性增加了。

性质4

任何两个事件之间的互信息量不可能大于其中的任一事件的自信息量

这说明自信息量 是为了确定事件 的出现所必须提供的信息量,也是任何其他事件所能提供的关于事件 的最大信息量。

证明

同理有

例题

某月二月份天气的构成的信源为

某一天有人告诉你:“今天不是晴天”。问从这句话里,我们得到多少信息量?

解:令 “今天不是晴天”,则

此信息对于 提供的互信息量分别为

2.4 条件互信息量

定义

联合集 中,在给定 的条件下, 之间的互信息量定义为「条件互信息量」。其定义为

联合集 上还存在 之间的互信息量,其定义式为

这里,我们把 作为一个积事件单独计算了。可进一步表示为

因此有

信息的获取,是事件出现的不断叠加。上式表明,一对事件 出现后所提供的有关 的信息量 等于事件 出现后所提供的有关 的信息量 加上在给定事件 的条件下再出现事件 所提供的有关 的信息量。

例题

某人 预先知道他的三位朋友 中必定将有一人晚上到他家来,并且这三人来的可能性均相同,其先验概率为: 但是上午 接到 的电话不能来了。把这次电话作为事件 ,那么有后验概率

下午 又接到 的电话,说晚上开会不能来。把这次电话作为事件 ,那么有后验概率

到最后一通电话,我们就获取完了所有信息。事件 (上午的电话)发生后, 获得关于 的互信息为:

因为 为不可能事件,因此此时无需考虑互信息量。事件 (两次电话)发生后, 获得关于 的互信息为:

因为其他两个条件概率 均为零,因此不必考虑 事件的互信息量。在事件 (上午的电话)发生的条件下,计算条件互信息量

前面已经算出

可见

表明,事件 出现后所提供的有关 的信息量 等于事件 出现后所提供的有关 的信息量 加上在给定事件 的条件下,再出现事件 所提供的有关 的信息量。

3. 平均互信息量

互信息量 表征的是收到 后得到的有关 的信息量。它只能定量地描述输入随机变量发出某个具体消息 ,输出变量出现某一具体消息 时,流经信道的信息量。

「输入 ,输出 」是一个概率为 也是随 变化而变化的随机量。
互信息量 不能从整体上作为信道中信息流通的测度

这种测度应该是从整体的角度出发,在平均意义上度量每通过一个符号流经信道的平均信息量。作为一个测度,它不能是随机量,而是一个确定的量。为了解决这个问题,我们定义平均互信息量。

1. 定义

互信息量 在联合概率空间 中的统计平均值

称 $ I(X;Y) $ 是 $ Y $ 对 $ X $ 的平均互信息量,简称「平均互信息」,也称平均交互信息量交互熵。平均互信息 相当于是对样本空间中的所有互信息量取了均值,从而克服了互信息量 的随机性,成为一个确定的量,因此,可以作为信道中流通信息量的整体测度。平均互信息量 也可定义为

其中

相互独立时,

2. 性质

互易性

也叫做对称性。该性质表示从集 中获得关于 的信息量等于从集 中获得关于 的信息量。

非负性

当且仅当 相互独立时,等号成立。即如果 相互独立,它们之间相互不能提供任何信息。

证明

利用不等式 ,和关系式

等号成立的条件是,对于 都有 ,即当且仅当 相互独立时,。证毕。只有平均互信息量具有此性质,单个互信息量不具有。

极值性

当互信息量 达到最大值 时,表示信道能够完全将输入端的信息准确无误地传递到输出端。

证明

类似的,我们得到三个重要结论。从信源角度来说,我们有

即:平均互信息量等于 的信息熵减去条件熵 。这从直观上是容易理解的,信道开启后,我们收到信息构成信源 ,对信源 的了解从 变为

从信宿角度来说,我们有

即:平均互信息量等于 的信息熵减去条件熵 。这从直观上也是容易理解的,信道开启后,我们对信源 的了解从 变为

代入 ,我们得到

这是从「系统的上方」来思考问题。系统还未开启时, 独立,此时两者之间的信息量为 ;启动后减掉 ,就能体现出系统的作用

凸函数性

这个性质比较重点

该性质是研究信道容量的理论基础

该性质是研究率失真函数的理论基础

4. 单符号离散信道

4.1 定义

单符号离散信道的输入和输出都是单个随机变量,其数学模型如下图:

信道的输入随机变量取值于符号集 ,信道的输出随机变量取值于符号集

信道的传递概率为

信道矩阵为

且满足

即矩阵中每一行之和为 ,可见有点类似马尔可夫链,其概率空间表示为

4.2 例题

例 1

二元对称信道的 的输入概率空间为

信道的转移概率图为下图所示,求平均互信息量

求平均互信息量

解:

这个信道表示正确率为

得到一步转移概率矩阵

从而推出

从而有

其中, 是一个只与 有关的熵函数,可以用 表示。因此有

从而

平均互信息量如下图

例2

考虑二元信道

正确概率为 ,错误概率为 ,即一旦出错就把它丢弃。其中 e 代表 eraser,称此信道为「二元删除信道」其信源概率空间可以表示为

信道矩阵可以表示为

解:

从而有

从而得到

因此

当信源为等概分布时, 达到最大。

二、单符号离散信道

1. 信道容量

平均互信息 是输入变量 概率分布 的上凸函数。对于一个固定的信道,总存在一种信源概率分布,使传输每一个符号平均获得的信息量,即平均互信息 最大。因此,我们定义平均互信息的最大值为「信道容量」,即

其单位为「比特/符号」或「奈特/符号」。而相应的概率分布 称为最佳输入分布

信道容量 仅与信道的统计特性有关,与信源分布无关 的值是由信道传递概率决定的。信道传递概率矩阵描述了信道的统计特性。信道容量表征信道传送信息的最大能力。实际中信道传送的信息量必须小于信道容量,否则在传送过程中将会出现错误。

信息传输率

信道中平均每个符号所能传送的信息量。称为「信息传输率」,记为 ,单位为:比特/符号。平均互信息 是接收到符号 后平均每个符号获得的关于 的信息量。信道的信息传输率就是平均互信息。

如果平均传输一个符号为 秒,则信道每秒平均传输的信息量 (单位:比特/秒)定义为「信息传输速率

某一个固定信道的最大的信息传输速率定义为「信道容量」,用字母 表示。如果平均传输一个符号需要 秒钟,则信道在单位时间内平均传输的最大信息量 (单位:比特/秒)为:

下面介绍几种特殊离散信道的信道容量

2. 离散无噪信道的信道容量

离散无噪信道的输出 与输入 之间有着确定的关系,一般有以下三类:

  • 无损信道
  • 无噪(确定)信道
  • 无噪无损信道

损失熵与噪声熵

损失熵

为「损失熵」或「信道疑义度」,表示信源符号通过有噪信号传输后所引起的信息量的损失。因为

损失熵等于信源 所含有的信息量,减去信道平均传送一个信息所得到的信息量。

噪声熵

称为「噪声熵」,反映了信道中噪声源的不确定性。因为

噪声熵等于输出信源 所含有的信息量,减去信道平均传送的一个符号所得到的信息量。

损失熵来自于 的符号集

2.1 无损信道

定义

一个输入对应多个互不相交的输出的离散信道称为「无损信道」。

时,其信道矩阵为

每列只有一个非零元素,可以推出其后验概率矩阵,非零即一。信道的后向概率

故损失熵为 ,接受端可以完全恢复信息。

信道容量

在这类信道中,因为信源发生符号 ,并不能确定在信道输出端会发生哪个 ,因此噪声熵为 ,于是,可求出无损信道的平均互信息量为

其信道容量为

2.2 无噪信道

无噪信道的一个输出对应各个互不相交的输入,可以理解成压缩。

时,信道矩阵为

前向概率为

因此噪声熵 。在这类信道中,信道输出端接收到某个 以后,并不能断定是哪一个输出符号 ,因而损失熵

于是,可以求出确定信道的平均互信息为

其信道容量为

达到此类信道的信道容量的概率分布是使信道输出分布为等概分布的输入分布。

2.3 无噪无损信道

无损无噪信道的输入和输出是一一对应关系,如右图所示。

时,其信道矩阵为单位矩阵

信号的前向概率 和后向概率 一致,即

信道的噪声熵和损失熵均为零。故无损确定信道的平均互信息为

它表示信道输出端接收到符号 后,平均获得的信息量就是信源发出每个符号所含有的平均信息量,信道中没有损失信息。其信道容量为

3. 对称离散信道的信道容量

信道矩阵具有很强对称性的特殊信号称为「对称信道」。

3.1 离散输入对称信道

最重要的

若一个离散无记忆信道的信道矩阵中,每一行都是其它行的同一组元素的不同排列,则称此类信道为「离散输入对称信道」。此时称矩阵的行是可排列的,如

3.2 离散输出对称信道

若一个离散无记忆信道的信道矩阵中,每一列都是其它列的同一组元素的不同排列,则称此类信道为「离散输出对称信道」。此时称矩阵的列是可排列的,如

3.3 离散准对称信道和对称信道

若一个离散无记忆信道的信道矩阵中,按照信道的输出集 (即信道矩阵的列)可以将信道划分成 个子集(子矩阵),每个子矩阵中的每一行(列)都是其它行(列)的同一组元素的不同排列,则称这类信道为「离散准对称信道」。

  • 矩阵的行是可排列的,列不可排列。
  • 子矩阵具有可排列性。

例如信道矩阵

当划分的子集只有一个时,信道是关于输入和输出对称的,这类信道称为「离散对称信道」。此时矩阵具有可排列性:矩阵的行和列都是可排列的。

例如信道矩阵

3.4 定理

对称信道

定理 :若一个离散对称信道具有 个输入符号, 个输出符号,则当输入为等概分布时,达到信道容量,且

其中, 为信道矩阵中的任一行。

证明

引理:对于对称信道,只有当信道输入分布为等概分布时,输出分布才能为等概分布。
根据引理,对称信道的最佳输入分布为等概分布。

准对称信道

如果一个 列单符号离散信道矩阵 的行是可排列的,列不可排列。矩阵中的 列可分成 个不相交的子集分别有 个元素(), , ( 具有可排列性。该准对称信道的容量为:

其中, 为信道矩阵中的任一行, 为第 个子集中概率 的平均值。实现离散准对称无记忆信道信道容量的输入分布为等概分布。
公式不用记,只要记输入等概,每个子集等概这个条件即可。(但是为什么都用这个公式在算啊,搞得我很慌……)

3.5 例题

例 1

设某离散对称信道的信道矩阵为

该信道的信道容量为

此例表明,在该对称信道中,每个符号平均能够传输的最大信息量为 bit,且只有当信道输入符号是等概分布时才能达到这个最大值。

例 2

信道矩阵

求其信道容量

解:分为两个子系统

设输入等概,即 ,先求联合矩阵

4. 强对称离散信道的信道容量

4.1 定义

若信道输入符号和输出符号个数相同,且信道矩阵为

式中 ,则称此信道为「强对称信道」或「均匀信道」。均匀信道具有下面几个特征:

  • 均匀信道是对称信道的一个特例;
  • 输入符号数与输出符号数相等;
  • 信道中总的错误概率为 ,对称地平均分配给 个输出符号, 为输入符号的个数;
  • 均匀信道中不仅各行之和为 ,而且各列之和也为
  • 一般信道各列之和不一定等于
  • 二元对称信道就是 的均匀信道。

4.2 信道容量

均匀信道的信道容量为

证明:

其中, 是错误传递概率; 是正确传递概率,达到信道容量 的分布是信道输入为等概分布

4.3 例

二元对称信道的平均互信息为

如图所示

平均互信息 对信源概率分布 存在一个最大值,即当 时,

因而二元对称信道的信道容量

信道容量 仅为信道传递概率 的函数,而与信道输入变量 的概率分布 无关。不同的二元对称信道(其传递概率 不同,信道容量也将不同,如下图所示

,其信道容量 ,可见,此时不管输入概率分布如何,都能达到信道容量。因为任何输入概率分布 都使平均互信息等于零,达到信道容量。说明此信道输入端不能传递任何信息到输出端。当然,这种信道是没有任何意义的,但它在理论上正好说明信道的最佳输入分布不一定是唯一的。

5. 离散信道容量的一般计算方法

只要求掌握到最后的「再根据式」

5.1 计算

一般的离散无记忆信道达到信道容量的输入概率分布应满足的条件应该是怎么样的?

根据信道容量的定义,在信道固定的条件下,对所有可能的输入概率分布 ,求平均互信息的极大值。前面已经导出,平均互信息 是输入概率分布 的上凸函数,因此 的极大值必然存在。

平均互信息 个变量 的多元函数,且满足约束条件

故可以用拉格朗日乘子法来计算这个条件极值。首先引进一个新的函数

其中 为拉格朗日算子,是待定常数。然后求解方程组

可求得一般信道容量 。由

因为 ,所以方程组

可写为

求偏导得

其中 ,所以整理上式得到

对该式两边乘以 并求和

也就是说

即为平均互信息的最大值。

5.2 定理

设有一般离散信道,它有 个输入符号, 个输出符号。当且仅当存在常数 使输入分布 满足

时, 达到极大值。此时,常数 即为所求的信道容量。式中的

称为「条件互信息」。此定理非常重要,它表示信道输出端接收到符号集 以后,获得关于 的信息量。或者说,信源符号 对信道输出符号集 平均提供的互信息。

该定理只给出了达到信道容量时,最佳输入概率分布应满足的条件,并没有给出输入符号的最佳概率分布值,因而也没有给出信道容量的数值。

该定理还隐含着,达到信道容量的最佳分布并不一定是唯一的。在一些特殊情况下,常常可以利用这一定理找出所求的输入概率分布和信道容量。

,则

根据信道矩阵可求出 ,且 ,两边对 求和得到

从而求出信道容量

再根据

可求出对应的输入概率分布

三、多符号离散信道

1. 数学模型

一般离散无记忆信道的数学模型基本上与输入和输出为单符号的简单离散无记忆信道的模型相同。不同的是其输入和输出不是单个随机变量 ,而是随机序列

其概率空间为

离散无记忆信道的 次扩展信道的数学模型可以表示为

  • 输入随机矢量 的可能取值有 个,分别是
  • 输出随机矢量 的可能取值有 个,分别是

根据信道的无记忆特性,有

次扩展信道的信道矩阵为

其中:

且满足

这意味着 次扩展信道矩阵中各行之和为

例题

分析二元无记忆对称信道的二次扩展信道。

二元无记忆对称信道的输入和输出随机变量 都取值于同一符号集 ,因此二次扩展信道的输入符号集为

共有 个输入符号。输出符号集为

共有 个输出符号。根据信道的无记忆特性,可以求出二次扩展信道的传递概率

同样,还可以求出其他

从而求得二元对称信道的二次扩展信道的矩阵为

因此二次对称信道的二次扩展信道如下图所示

2. 平均互信息

根据平均互信息的定义,可以求出 次拓展信道的平均互信息

其中

定理一

不关心

若信道的输入和输出分别是 长序列 ,且信道是无记忆的,亦即信道传递概率为

或者

则存在

式中, 是随机序列 中第 为随机变量,它意味着平均互信息 小于或等于单个随机变量 的互信息 之和

定理二

不关心

若信道的输入和输出分别是 长序列 ,且信源是无记忆的,亦即

或者

则存在

式中, 是随机序列 中对应的第 位随机变量。
根据定理一和定理二可知,当信源和信道都是无记忆的。此时,

这相当于 的独立信道并联的情况

如果信道的输入随机序列 中的分量 取值于同一信源符号集

并且具有同一种概率分布,信道输出随机序列 ,其各分量 也取值于同一符号集

并具有同一概率分布。则

于是得

式中 是随机序列的长度。这样,对于离散无记忆信道的 次扩展信道,当信源也是无记忆时,则有

此式表明,当信源是无记忆时,对于无记忆的 次扩展信道,其平均互信息 等于原来信道的平均互信息 倍。对于一般离散无记忆信道,由定理,有 所以其 次扩展信道的信道容量为

其中, 表示在某时刻 通过离散无记忆信道传输的最大信息量。

由于输入随机序列 是在同一信道中传输,所以有 。也就是说任何时刻 通过离散无记忆信道的最大信息量都相同,于是得

3. 级联信道

3.1 级联信道的模型

信道 I 和信道 II 都是离散无记忆信道

类似于上网多跳。信道二需要从系统的角度来看。

信道一

  • 输入随机变量为 ,它取值于输入符号集
  • 输出随机变量为 ,它取值于符号集

信道二

  • 输入随机变量为 ,它取值于符号集
  • 输出随机变量为 ,它取值于输出符号集

3.2 级联信道的传递概率

信道一的传递概率为

信道二的传递概率为

显然,信道二的传递概率一般与前面的符号 均有关。

3.3 定理

级联信道中的平均互信息满足以下关系

等号成立的充要条件,对所有

  • 表示联合随机变量 与变量 之间的平均互信息,也就是接收到 后获得关于联合变量 的信息量
  • 是接收到 后获得关于变量 的信息量
  • 是接收到 后获得关于变量 的信息量。

该定理中,等号成立的条件是 ,它表示,输出随机变量 仅依赖于随机变量 ,与前面的 无关。

数据处理定理

如果输出随机变量 仅依赖于随机变量 ,而与前面的 无关,则意味着随机变量 构成一个一阶马尔可夫链。这就是说,级联信道的输入和输出变量之间构成一个马尔可夫链,并且存在下面的定理:

若随机变量 构成一个马尔可夫链,则有


该定理表明,通过串联信道的传输只会丢失信息,不会增加信息,至多保持原来的信息量

如果信道满足 (对一切 ),即串联信道的总的信道矩阵等于第一级信道矩阵时,通过串联信道传输后不会增加信息的损失。

如果第二个信道是个一一对应的无损信道,这个条件显然满足。如果信道二是个数据处理系统,则表明通过数据处理后,一般只会增加信息的损失,虽多保持原来获得的信息,不可能比原来获得的信息有所增加。

物理意义

数据处理定理说明,在任何信息传输系统中,最后获得的信息至多是信源所提供的信息

如果一旦在某一过程中丢失一些信息,以后的系统不管如何处理,如果不触及到丢失信息过程的输入端,就不能恢复一丢失的信息。

这就是信息不增性原理,它与热熵不减原理正好对应。它深刻反映了信息的物理意义。

例题

设有二个离散二元对称信道,其串联信道如下图所示。

设第一个二元对称信道的输入符号的概率空间,以及两个二元对称信道的信道矩阵为

若设 为马尔可夫链,则串联信道的总的信道矩阵为

于是根据平均互信息的定义,可以算出

如果在两个二元对称信道串联之后再增加一个级联环节,可得

依此类推, 个信道经串联后,其平均互信息量如图所示


考试要求就是求信道矩阵和

  • 时,串联信道退化为一个二元对称信道,其平均互信息量 等于 曲线
  • 时,曲线 等于 曲线

对于 个二元对称信道的串联,从图中可以看出

这意味着,二元对称信道经串联后,只会增加信息的损失。当串联的级数越多,损失的信息越大

信源和信道匹配

信源发出的消息符号一般要通过信道来传输。对于某一信道其信道容量是一定的。只有当输入符号的概率分布 满足一定条件时才能达到信道容量 。或说只有一定的信源才能使某一信道的信息传输率达到最大。一般情况下信源与信道连接时,其信息传输率 并未达到最大。这时,信道的信息传输率还有提高的可能。当信源与信道连接时,若信息传输率达到了信道容量,我们则称此信源与信道「达到匹配」。否则认为信道有剩余。

信道剩余度与相对剩余度

在无损信道中,信道容量 ,其中 是信道输入符号的个数,而 ,这里 是输入信道的信源熵。因而,无损信道的相对剩余度

信源编码就是将信源输出的消息变换成新信源的消息来传输,而使新信源的熵接近最大熵;
新信源的消息通过信道的消息传输率接近最大值,信道剩余度接近于零,信道得到充分利用。
这就是香农无失真信源编码理论,它使信源和信道达到匹配,传输的信息量达到最大,提高了信息传输的有效性。

四、连续信道

信道容量:指信道对信源一切可能的概率分布而言能够传送的最大熵速率。

连续信道,分为时间离散和时间连续两大类型。

  • 离散时间信道:即时间为离散值,信道的输入和输出只能在特定的时刻变化;
  • 连续信道或波形信道:即时间为连续值,信道的输入和输出取值是随时间变化的。

1. 联合熵、条件熵和平均交互信息量

跟离散是一样的

1.1 联合熵

设有两个连续随机变量 ,定义

的「联合熵」,式中 为二维联合概率密度。

1.2 条件熵

设有两个连续随机变量 ,定义

的「条件熵」,式中 为条件概率密度。

1.3 平均互信息量

设有两个连续随机变量 ,定义

称为 的「平均互信息量

性质

连续随机变量平均互信息的主要性质如下:

非负性

当且仅当连续随机变量 统计独立时,等号成立。

对称性

2. 信道容量

信道容量 定义为

由于输入和干扰是相互独立的,对于一维随机变量,其信道模型可以表示为 ,式中 为输入随机变量, 为输出随机变量, 为随机噪声,且 统计独立。

2.1 时间离散信道的容量

连续信道的输入和输出为随机过程 。设 为随机噪声,那么简单的加性噪声信道模型可以表示为

根据采样定理将随机信号离散化,对于时间离散信道的输入和输出序列可以表示为

若信道转移概率密度满足

则称信道为「无记忆连续信道」。与离散信道情况类似,存在关系

2.1.1 信道容量定义

设随机变量 的概率密度分别为 ,根据概率论及坐标变换理论,可以求得随机变量 条件下的概率密度为

证明:

信道容量

因此有

分析

简单加性噪声信道的互信息量输出熵噪声熵决定。

若输入信源 和噪声源 分别为均值 ,方差为 的高斯分布,则随机变量 为均值为 ,方差为 的高斯分布,因此

由于实际中信号和噪声的功率是有限的,所以研究时间离散连续信道的容量是在功率受限的条件下进行的

高斯噪声信道的信道容量

若输入信源均值为 ,方差一定,信源 满足高斯分布时,熵值最大。由概率论结论知,只有当 满足均值为 ,方差为 的高斯分布时, 满足高斯分布。其均值为 ,方差为

此时,噪声熵和 的熵分别为

则信道容量为

非高斯型加性噪声信道容量

非高斯型加性噪声信道容量的计算相当复杂,下面定理给出了其上、下限。假设输入信源的平均功率小于 ,信道加性噪声平均功率为 ,可加噪声信道容量 满足

其中 为噪声的熵功率。证明略

结论:当噪声功率给定后,高斯型干扰是最坏的干扰,此时其信道容量 最小。因此,在实际应用中,往往把干扰视为高斯分布。

时间连续的容量

时间连续信道可以用随机过程描述,加性噪声信道模型一般表示为

式中 均为随机过程。由于信道的带宽有限,可以把一个时间连续的信道变换成时间连续的随机序列进行处理,即设

  • 输入随机序列为
  • 噪声随机序列为
  • 输出随机序列为

则有

平均功率受限的时间连续高斯信道

设高斯噪声的平均功率为 ,即 。对于随机序列 ,则有 。由于高斯白噪声的各样本彼此独立,那么 维高斯分布的联合概率密度为

对于加性噪声信道,由概率论可知

时间连续的高斯信道容量

由于信道时无记忆信道,那么 维随机序列的平均叫互信息量满足

因此时间连续的信道容量为

若信道为高斯信道,则时间连续的高斯信道为

达到该信道容量则要求 维输入随机序列中的每一分量都必须是零均值、方差为 且相互独立的高斯变量

单位时间窄带高斯信道容量

对窄带加性高斯信道,假设信道带宽为 ,时间区间为 。由采样定理,可用 个样本来表示 ,则

单位时间信道容量为

香农公式

当噪声功率谱密度为 的高斯白噪声时,上式可以表示为

称上式为「香农公式」(Shannon)

  • 香农公式适用于加性高斯白噪声信道。只有输入信号为功率受限的高斯白信号时,其信道容量才能达到该极限值。
  • 实际信道往往是非高斯信道,但由于高斯白噪声信道是平均功率受限情况下最差信道,所以香农公式可用于确定非高斯信道容量的下限值
  • 香农公式对实际通信系统有非常重要的意义,因为香农公式给出了理想通信系统的极限信息传输率

意义

  • 当信道容量一定时,增大信道带宽,可以降低对信噪功率比的要求;
  • 反之当信道频带较窄时,可以通过提高信噪功率比来补偿。( 为高斯白噪声在带宽 内的平均功率。)
    当信道的频带很宽(无限)时,其信道容量与信号功率成正比,这一比值是加性高斯噪声信道信息传输率的极限值。

,取 2 为底的对数,则

香农公式把信道的统计参量(信道容量)和实际物理量(带宽 、时间 和信噪功率比 )联系了起来。它表明一个信道可靠传输的最大信息量完全由 所决定。一旦这三个物理量给定,理想通信系统的极限信息传输率就确定了。

由此可见,对一定的信息传输率来说,带宽 、时间 和信噪功率比 三者之间可以互相转换。

例:若要保持信道的信息传输率 ,当信道的带宽 减小到 ,则就要求增加信噪比。

时,由

信噪比 ,信号功率

时,求得信噪比

信号功率为

可见,带宽减少 ,信噪功率比必须增加约一倍,带宽很小的改变,信噪功率比就有较大的改变。若增加较少的带宽,就能节省较大的信噪功率比


考试时往往用 dB 来表示

五、信道编码定理

1. 信道编码

1.1 噪声信道的编码问题

在二进制数字通信系统中,编码器的编码过程分为两步:

  • 信源编码:把信源的消息数据序列编成二进制数字构成的码序列;
  • 信道编码:把二进制数据序列编成具有纠检错能力的二进制序列。

由于信源编码在构造上并未考虑抗干扰,如果把信源编码器的输出直接接入信道,由于信道中存在噪声干扰,将引起误码,降低通信可靠性。

因此提出了以提高通信可靠性为主要目的「信道编码」,它是对信源编码器输出的最佳码再进行一次编码,以提高其抗干扰能力的一种编码形式。

1.2 信道编译码的理论基础

信道的特征是由信道传递概率 来描述的。由 可以算出信道容量 ,只要在信道中实际传送的信息率 ,在接收端就能够无差错地译出发端所输送的信息。

  • 信道输入符号序列 代表 种信源符号,信源符号也可以是已经经过信源编码的 种码字,使从信道输出符号序列 能正确地译出这 种码字,
  • 问题就在于如何用 组成这 种码字,才能达到无差错地传送,这就要编码。这种编码实质上是希望信源与信道特性相匹配,所以称为信道编码。

1.3 信道编译码的基本思想

信道编码的编码对象是信源编码器输出的数字序列 ,又称为信息序列。通常是由二元符号 构成的序列,而且符号 是独立等概的。

信道编码,就是按一定的规则给数字序列 增加一些多余的码元,使不具有规律性的信息序列 变换为具有某种规律性的数字序列 ,又称为码序列。码序列中信息序列的诸码元与多余码元之间是相关的。

在接收端,信道译码器利用这种预知的编码规则来译码,或者检错(检验接收到的数字序列 中是否有错),或者纠错(纠正其中的差错)。

信道编码的基本思想是就是根据相关性来检测和纠正传输过程中产生的差错

1.4 通信的可靠性问题

通信的可靠性问题,即消息通过信道传输时如何选择编码方案以减少差错。

  • 首先,通信的可靠性显然与信道的统计特性有关,因为杂噪干扰是造成错误的主要因素。
  • 其次,编码方法和译码方法也将影响信息传输的可靠性。

在有噪信道中传输信息是会发生错误的,错误概率和信道统计特性、编译码过程以及译码规则有关。

1.5 编码信道的概念

信道编码研究的对象是编码信道。

如上图所示,它是由信道编码器、信道译码器和实际信道一起形成的一个新的信道。

编码信道是研究信道纠错编码和译码的一种模型。它可以是:

  • 无线通信中的如发射机、天线、自由空间、接收机等全体;
  • 有线通信中的如调制解调器、电缆等全体;
  • 互联网的多个路由器、节点、电缆、低层协议等全体;
  • 计算机的存储器如磁盘等的全体;

1.6 错误概率和译码规则

考虑一个二元对称信道,单符号错误传递概率是 ,其输入符号为等概率分布。

如果规定在信道输出端接收到符号 时,译码器把它译成 ;接收到 时译成 ,那么译码错误概率为 。反之,如果规定在接收到符号 时译成 ;接收到 时译成 ,则译码错误概率为

可见,错误概率既与信道统计特性有关,也与译码规则有关。

1.7 无记忆二进制对称信道(BSC)

假定数字通信系统的编码信道是无记忆二进制对称信道:

二进制信道是指码字和接收向量均由二元序列表示的信道,即

二进制信道可用转移概率 描述输入输出关系;满足以下公式的二进制信道称为无记忆二进制信道:

满足以下对称特性的无记忆二进制信道称为无记忆二进制对称信道,简称 BSC:

BSC 的信道模型

只要噪声是白噪声,大多数二进制传输信道的模型可等效为一个 BSC,其信道模型如下图所示。

可将 BSC 的输入输出关系等效为代数关系:

  • 差错图案:随机序列(
  • 随机错误:
  • 突发错误:第 至第 位之间有很多错误。

2. 译码规则

2.1 定义

设信道输入符号集 ,输出符号集为 。若对于每一个输出符号 都有一个确定的函数 ,使 对应于唯一的一个输入符号 ,则成这样的函数为「译码规则」,记为

显然,对于有 个输入, 个输出的信道而言,按上述定义得到的不同的译码规则共有

例题

设有一离散无记忆信道,其信道矩阵为

则以下 是两个不同的译码规则:

由于 个输出符号中的每一个都可以译成 个输入符号中的任何一个,故按此信道矩阵总共可设计出 种译码规则。在所有的译码规则中,不是每一种译码规则都是合理的,因此要讨论选择译码规则的准则,这些准则总的原则是使译码平均错误概率最小

2.2 译码平均错误概率

若译码规则为 ,则信道输出端接收到符号 时,一定译成 。如果发送端发的就是 ,这就是正确译码,因此条件正确概率为

反之,如果发送端发的是 ,则是错误译码,因此条件错误概率为

经过译码后,平均到一个符号所产生的错误的大小,也就是译码平均错误概率

译码平均错误概率还可以写成

可以看作是 的联合概率矩阵,去掉译码的那项。若用条件概率表示,则可以写成

平均正确概率可以写成

等概率分布时的译码平均错误概率

若输入为等概率分布,则

上式意味着,在输入为等概率分布的条件下,译码错误概率可用信道矩阵中元素的求和来求。这种求和是除去信道矩阵中每列中对应于 的那一项后,求矩阵中其余元素之和。

2.3 译码规则的选取

选择译码规则总的原则应是使译码平均错误概率 最小。译码平均错误概率

为非负项之和,欲使译码平均错误概率最小,那么应使每一项 为最小。由于 与译码规则无关,故欲使译码平均错误概率最小,即为使 最小,或者使 为最大,于是引出最大后验概率准则。

2.4 最大后验概率定理

定义

选择译码函数 ,使之满足条件

则称为「最大后验概率译码准则」。最大后验概率译码准则是选择这样一种译码函数,对于每个输出符号 均译成具有最大后验概率 的那个输入符号 ,则信道译码的错误概率会最小。

例题

设信道矩阵 ,输入符号概率为 ,试按照最大后验概率准则确定最佳译码规则。

解:

得联合概率矩阵 。由

则可以确定最佳译码规则为

在最佳译码规则下的译码平均错误概率为

3. 后验概率与最大似然译码规则

从最大后验概率译码规则可以很容易推出极大似然译码规则。根据贝叶斯定律,有

则最大后验概率准则可表示为

当输入为等概分布,,则最大后验概率准则转变为最大似然译码准则

3.1 定义

选择译码函数 ,使之满足条件

则称为「最大似然译码准则」。当输入符号为等概分布时,应用极大似然译码准则是很方便的,即将 译成信道矩阵中第 列最大的那个元素。式中的条件概率即为信道矩阵中的元素

例题

已知信道矩阵 ,设计如下两种译码规则

当输入为等概率分布时,译码规则 就是依据最大似然译码准则而得的,两种译码规则所对应的平均错误概率分别为

在输入为等概率分布时,最大似然译码准则是最优的

3.2 费诺不等式

知道有就行,不需要记住。

译码时发生错误是由信道中噪声引起,因此平均错误概率与信道疑义度 有关,其关系由费诺不等式表示。译码平均错误概率与信道疑义度 间满足以下关系

这个不等式称为「费诺不等式」。

虽然 与译码规则有关,但不管采用什么译码规则费诺不等式均成立。费诺不等式表示,当作了一次译码判决后所保留的关于信元的不确定性可以分成两部分:

第二部分是当判决是错误的,其错误概率为 时,到底是 个输入符号中哪一个引起错误的最大不确定性,它是 个符号不确定性的最大值 的乘积。

第一部分是接收到 后,判决是否发生错误的不确定性 ,其中 是译码平均错误概率 的熵,表示产生错误概率 的不确定性。

4. 错误概率与编码方法

前面讨论了平均错误概率与译码规则的关系。选择最佳译码规则只能使错误概率有限地减小,无法使其任意地小。要想进一步减小错误概率,必须优选信道编码方法。

现在讨论不同的编码方法对译码平均错误概率和信息传输率的影响。

4.1 简单重复编码

本节举例说明在采用简单重复编码时重复次数对译码平均错误概率和信息传输率的影响。

设有二元对称信道,其信道矩阵为

未编码时:

选择最佳译码规则为

在输入为等概率分布时,译码平均错误概率为

采用简单重复编码,规定信源符号为 (或 )时重复发送三个 (或 )。输入符号和输出符号的关系如图:

其中, 称为禁用码制。如此构成的信道可以看成是二元对称信道的三次扩展信道,其信道矩阵为

设输入符号为等概分布,采用最大似然译码准则,得译码函数为

在输入为等概分布时,相应的译码平均错误概率为

在简单重复编码时,采用“择多译码”的译码规则等效于最大似然译码准则。择多译码是根据接收序列中“”和“”的个数,如果是“”多,则译码器就判决为“” ,如果是“”多,就判决为“”。

采用简单重复编码方法,如果增大重复次数 ,则会降低译码平均错误概率,但信息传输率也要减小。 信息传输率表示平均每个码符号所携带的信息量,其中 为消息符号个数。

重复次数对信息传输率和错误概率的影响如下

能否找到一种编码方法,使平均错误概率充分小,而信息传输率 又可以保持在一定水平上,这就是香农第二定理所要回答的问题。

2. 消息符号个数

本节讨论消息符号个数 对错误概率和信息传输率的影响。

在一个二元信道的 次无记忆扩展信道中,输入端共有 个符号序列可能作为消息符号,现仅选其中 个作为消息符号传递。

,那么可供选择的消息符号数共有 个,发送端只选择其中 个作为输入消息符号传递,而接收端会接收到所有 个输出符号,然后从中译出 个消息符号。

以下假设输入为等概率分布 ,信道错误传递概率 ,采用简单重复编码和最大似然译码准则。当 时,有:

时,有


有不同的选取方法,代表不同的编码方法,其平均错误概率是不同的。

取法 1 :,有

取法 2 :,有

输入信息符号个数 增大时,平均错误概率显然是增大了,但信息传输率也增大了。反之,亦然。
输入信息符号个数 不变时,即信息传输率不变时,不同的编码方法,其平均错误概率是不同的。

3. 线性码

从以上讨论看出:

增大简单重复编码次数 ,虽然使平均错误概率 下降,但信息传输率 也降低了。增大输入消息符号个数 ,尽管可使信息传输率 增大,但又增大了平均错误概率 。当采用好的编码方法时,可以使平均错误概率 和信息传输率 两个指标得到较好的折衷。

,则输入符号有 种,由 个不同取值决定。

采用以下编码方法将输入符号编码成为 5 位码:

编码方法为

其中, 代表异或运算。由上述编码方法得到一种 线性码,如图所示

采用最大似然译码准则,当

  • 正确译码概率为
  • 平均错误译码概率为

信息传输率为

前述 的一种简单重复编码的平均错误译码概率为

信息传输率为

的简单重复编码比较, 线性码的信息传输率 略有降低,但平均错误概率却好得多。说明好的编码方法可以在错误概率和信息传输率两个性能上达到最佳折衷。

离散信道编码定理

若有一离散无记忆平稳信源,其容量为 ,输入序列长度为 ,只要待传送的信息率 ,总可以找到一种编码,当 足够长时,译码差错概率 为任意大于零的正数。

信道编码定理是一个理想编码的存在性定理。
信道容量是一个临界值,信息传输率不超过这个值,信道就可几乎无失真地把信息传过去,否则就会产生失真。

4. 汉明距离

4.1 定义

定义:设 为两个 长的二元码字,则码字 之间的汉明距离为

其中, 代表异或运算。上式的含义是,两个码字之间的汉明距离就是它们在相同位上不同码符号的数目的总和

举例:设 ,则

最小码距

定义:在二元码 中,任意两个码字的汉明距离的最小值,称为码 的最小码距,即

举例:设有 的两组码

对于码 ,对于码

最小码距对错误概率的影响

显然,最小码距 越大,则平均错误概率 越小。
码本中最小码距 越大,受干扰后,越不容易把一个码字错译成另一个码字,因而平均错误概率 小。
如果码本中最小码距 小,受干扰后很容易把一个码字错译成另一个码字,因而平均错误概率 大。
因此,在选择编码规则时,应使码字之间的距离 越大越好,这样的准则即为最小距离译码准则。

最小距离译码准则

定义:选择译码函数 ,使之满足

称为最小距离译码准则。采用这一准则时,只要将接收序列 译成与之距离最短的码字 即可。

最小距离准则与最大似然准则的关系

最大似然译码准则为:选择译码规则 ,使

为似然函数。设码字 的距离为 ,则表示在传输过程中有 个位置发生错误, 个位置没有发生错误。当信道无记忆时,有

时, 越大,则 越小; 越小,则 越大。因此在信道无记忆时,最大似然译码准则等效于最小距离译码准则

最小码距与检纠错能力的关系

只要记住前两个充要条件就可以了

定理

对于 线性分组码,设 为最小汉明距离,那么有如下结论存在:

这组码可以纠正 个错误的充要条件是:

这组码可以检测出 个错误的充要条件是:

这组码可以纠正 个错误,同时可以发现 个错误的充要条件为: