信息熵

1948年,香农借用热力学中熵的含义,提出了“信息熵”的概念,用它来描述信源的不确定度。 信息熵是随机变量不确定度的度量,信息熵越大则不确定度越大,反之不确定越小, 可以用下式表示,

\begin{equation} H(p_1,p_2,\cdots,p_n)=-\sum_{i=1}^n p_i\log_2p_i \label{equ:entropy_function}  \end{equation}

其中$H(p_1,p_2,\cdots,p_n)$表示信息熵,$p_i$表示第$i$个事件的发生概率。

熵权法

根据信息熵的定义,对于某项指标,可以用熵值来判断某个指标的离散程度,其熵值越小,指标的离散程度越大, 该指标对综合评价的影响(即权重)就越大,如果某项指标的值全部相等,则该指标在综合评价中不起作用。

按照信息论基本原理的解释,信息是系统有序程度的一个度量,熵是系统无序程度的一个度量;如果指标的信息熵越小,该指标提供的信息量越大, 在综合评价中所起作用理当越大,权重就应该越高。因此,可利用信息熵这个工具,计算出各个指标的权重,为多指标综合评价提供依据。

计算步骤

给定$n$个评价对象的$m$个标准化的指标值$X_1,X_2,\cdots,X_m$,其中$X_i={x_{i1},x_{i2},\cdots,x_{in}}$, 那么$X_i$的熵值为

\begin{equation} E_i = - \frac{\sum_{j=1}^{n}p_{ij} \ln{p_{ij}}}{\ln(n)} \end{equation}

其中, \begin{equation} p_{ij}=\frac{x_{ij}}{\sum_{j=1}^{n}x_{ij}} \end{equation}

如果$p_{ij}=0$,则定义$\lim_\limits{p_{ij} \to 0} p_{ij} \ln p_{ij} = 0$。

然后根据各指标的熵值$E_i$确定它们的权重

\begin{equation} w_i = \frac{1-E_i}{m-\sum_{i=1}^m E_i} \end{equation}

这样就得到了归一化的各个评价指标的权重$\bm{w}=(w_1,w_2,\cdots,w_m)$。