基于面板数据的熵值法介绍与实现

203 阅读 0 评论 134 点赞

我是靠谱客的博主瘦瘦跳跳糖，这篇文章主要介绍基于面板数据的熵值法介绍与实现，现在分享给大家，希望可以做个参考。

熵值法是一种基于信息熵理论的客观赋值方法。即数据越离散，所含信息量越多，对综合评价影响越大。

传统的熵值法有个弊端，只能针对于截面数据，即根据某一年 $k$ 个地区 $j$ 项指标进行综合评价。而在实际处理经济型数据过程中，经常会遇到面板数据。即根据 $m$ 个年份， $k$ 个区县， $j$ 项指标对其进行综合评价。其具体过程如下(与传统的熵值法过程非常相似，主要是第二步和第三步有区别)：

(1) 指标标准化处理

$text{正向指标}Z_{alpha ij}=frac{x_{alpha ij}-x_{min}}{x_{max}-x_{min}}$ $text{负向指标}Z_{alpha ij}=frac{x_{max}-x_{alpha ij}}{x_{max}-x_{min}}$ 式中， $mathit{x_{max}}$ ， $mathit{x_{min}}$ 分别代表第 $j$ 项指标的最大值和最小值； $x_{alpha ij}$ ， $z_{alpha ij}$ 分别代表第 $j$ 项指标标准化处理前和处理后的值。

(2) 指标归一化
$P_{alpha ij}=frac{Z_{alpha ij}}{sumlimits_{alpha=1}^{m}sumlimits_{i=1}^{k}Z_{alpha ij}}$

(3) 计算熵值
$E_{j}=-k_{1}sumlimits_{alpha=1}^{m}sumlimits_{i=1}^{k}P_{alpha ij}ln{P_{alpha ij}}$
其中， $k_{1}=displaystylefrac{1}{ln(m times k)}$

(4) 计算各项指标的冗余度
$D_{mathit{j}}=1-E_{mathit{j}}$

(5) 计算各项指标权重
$W_{mathit{j}}=frac{D_{mathit{j}}}{sumlimits_{mathit{j=1}}^{n}D_{mathit{j}}}$

(6) 得到各区县的综合经济指数
$I_{alpha i}=P_{mathit{alpha ij}} times W_{mathit{j}}$

二、R语言实现

以重庆市各区县为例，选取如下九项指标数据构建综合经济指数，数据来源《重庆统计年鉴》，时间范围为2009-2018年。

一级指标	二级指标
经济实力	GDP(国民生产总值)
	全社会固定资产投资
	社会消费品总额
经济质量	第三产业/GDP
	人均GDP
	区县一般公共收入/GDP
社会生活	农村居民人均纯收入
	人均一般公共服务支出
	城镇居民人均可支配收入

部分数据展示如下：
在这里插入图片描述

代码如下：

#根据数据实际情况,修改初始参数
setwd('C:/Users/dell/Desktop')
library(xlsx)
k=38  #区县个数
m=10  #年份
n=9  #指标个数

#读取数据
data.list=list()
for(i in seq(n))
  data.list[[i]]=read.xlsx('df.xlsx',sheetIndex = i,encoding='UTF-8')


caculate_p<-function(x) {
  z<-(x[,-1]-min(x[,-1]))/(max(x[,-1])-min(x[,-1]))
  p<-z/(sum(z))
}
P<-lapply(data.list,caculate_p)


caculate_d<-function(x){
  a<-x*log(x)
  a[is.na(a)]<-0
  d<-(1-(-sum(a)/log(k*m)))
}
d<-sapply(P,caculate_d)

#输出权重
w<-sapply(d,function(x) {x/sum(d)})
print(w)


#得到每年九个指标的Pij
rank=list()
data=data.frame(matrix(0,k,0))
for(j in seq(m))
{  for(i in seq(n))
  {
  data[paste0("指标",i)]=as.vector(P[[i]][,j])
  rank[[j]]=data
  }
}

#写出各年区县的综合经济指数
year=2018 
for(i in seq(length(rank)))
{
  score<-as.matrix(rank[[i]]) %*% w  #计算各区县综合指数
  county_score<-data.frame(cbind(as.character(data.list[[1]][,1]),score))  #添加区县名
  colnames(county_score)<-c("区县",'综合经济指数')
  write.xlsx(county_score,file='rank.xlsx',sheetName=paste0(year,'年'),append=TRUE,row.names=F)
  cat(paste0(year,'年写入完毕n'))
  year<-year-1
}