Processing math: 100%

留言板

尊敬的读者、作者、审稿人, 关于本刊的投稿、审稿、编辑和出版的任何问题, 您可以本页添加留言。我们将尽快给您答复。谢谢您的支持!

姓名
邮箱
手机号码
标题
留言内容
验证码

零一膨胀几何分布的统计分析及应用

刘梦瑶 肖翔

刘梦瑶, 肖翔. 零一膨胀几何分布的统计分析及应用[J]. 上海工程技术大学学报, 2024, 38(2): 196-204. doi: 10.12299/jsues.23-0213
引用本文: 刘梦瑶, 肖翔. 零一膨胀几何分布的统计分析及应用[J]. 上海工程技术大学学报, 2024, 38(2): 196-204. doi: 10.12299/jsues.23-0213
LIU Mengyao, XIAO Xiang. Statistical analysis and application of zero-and-one-inflated geometric distribution[J]. Journal of Shanghai University of Engineering Science, 2024, 38(2): 196-204. doi: 10.12299/jsues.23-0213
Citation: LIU Mengyao, XIAO Xiang. Statistical analysis and application of zero-and-one-inflated geometric distribution[J]. Journal of Shanghai University of Engineering Science, 2024, 38(2): 196-204. doi: 10.12299/jsues.23-0213

零一膨胀几何分布的统计分析及应用

doi: 10.12299/jsues.23-0213
详细信息
    作者简介:

    刘梦瑶(2000−),女,硕士生,研究方向为应用统计学。E-mail:liumengyao12@126.com

    通讯作者:

    肖 翔(1980−),男,副教授,硕士,研究方向为应用统计学。E-mail:xiaoxiang@sues.edu.cn

  • 中图分类号: O212

Statistical analysis and application of zero-and-one-inflated geometric distribution

  • 摘要: 研究了0−1膨胀几何分布模型,构造隐变量的条件分布,并设计抽样算法。在数据扩充的基础上,运用极大似然估计、期望极大(expectation maximization,EM)算法及贝叶斯方法对模型参数进行估计。设定不同的样本量和参数真值,通过数值模拟对上述方法进行性能评估。最后,对1994年美国底特律交通事故死亡数据集进行分析,研究表明,0−1膨胀几何分布模型能够较好地对该数据集进行拟合。
  • 计数数据是统计学研究的热点,具有过多零值的过度分散计数数据经常出现在自然科学、医学以及保险等各个领域。尽管泊松模型被广泛用于分析此类离散数据,但其均值和方差相等的强假设意味着当数据的方差大于均值时,该模型不再适用于对这类数据进行建模,这种现象被称为“过度分散”。

    过度分散的一个常见来源是观察到的计数包含过多的零值,因此,零膨胀模型成为众多学者研究的对象。张良超等[1]通过零膨胀泊松模型讨论了3种损失函数下风险参数的贝叶斯估计。肖翔等[2]提出零膨胀几何分布模型并进行参数估计。但样本数据有时会出现大量的零值和一值。例如,电子商务已深入百姓生活,人们在大型商场购物时往往抱着货比三家的心态,很多顾客选择不购买衣服或者只购买一件衣服。对于这类数据集,零膨胀模型不适合进行建模,需要进一步将其扩展到零一膨胀模型,常见的模型有:零一膨胀泊松(ZOIP)模型和零一膨胀负二项(ZOINB)模型。

    Zhang等[3]构建了ZOIP模型的5个等价表达式,并推导出重要的分布性质。Tang等[4]建立了ZOIP模型的新型结构,通过期望极大(expectation maximization,EM)算法和贝叶斯方法进行参数估计,数值模拟的效果良好。Jorinsian等[5]提出零一膨胀负二项−贝塔(ZOINB-BE)分布并研究其重要性质,通过该模型分析了3个真实数据集。Tajuddin等[6]介绍了零一膨胀泊松−林德利(ZOIP-Lindley)分布,利用矩估计(moment estimation, MM)和最大似然估计(maximum likelihood estimation, MLE)进行参数估计。研究表明,ZOIP-Lindley分布模型能够较好地描述新西兰白兔因分娩死亡的数量。

    目前,对0−1膨胀几何分布及回归模型的研究较少。Xiao等[7]构建了零一膨胀几何分布(ZOIGE)回归模型,在贝叶斯推断中引入了Pólya-gamma潜变量,将高维参数抽样问题转化为低维参数抽样和潜变量抽样,实例分析表明其比ZOIP回归模型更适合分析博士发表论文数量的数据集。为了更好地拟合零一值过多的数据,通过重参数化,肖翔等[8]对0−1膨胀几何分布模型进行客观贝叶斯分析,得到Jeffreys先验以及reference先验,达到很好的拟合效果,然后设计抽样算法对后验分布进行抽样,获得参数的估计。本研究以0−1膨胀几何分布模型为研究对象,分别使用极大似然估计、EM算法下的极大似然估计和贝叶斯估计3种方法进行参数估计,通过数值仿真和实例分析,评价这3种方法的估计效果,以提高鉴别真实零、一观测值的效率,丰富零一膨胀模型的研究方法。

    在伯努利试验中,假设每次试验成功的概率为θY为直到第一次成功出现为止,所进行的试验次数,其概率分布为P{Y=k}=(1θ)k1θk=1,2,,称Y服从几何分布。

    换个角度进行定义,Y为直到第一次失败出现为止,试验成功的次数,其概率分布为P{Y=k}=θk(1θ),k=0,1,,称Y服从几何分布。这两种定义是等价的,本研究采用第2种几何分布定义。

    当样本数据出现大量的零值和一值,且数据的尾部退化较快时,为了更好地描述这种现象,本研究构建零一膨胀几何分布模型,一个非负ZOIGE分布变量Z=B(1X)+(1B)Y。其中,(B,X,Y)相互独立,B服从于试验成功概率为p的伯努利分布,X服从于试验成功概率为q的伯努利分布,Y服从试验成功概率为θ的几何分布,即P{Y=k}=θk(1θ)k=0,1)。(B,X,Y)无法直接观测,称为隐变量,Z(B,X,Y)的关系为

    {{Z=0}{Y=0,B=0}{X=1,B=1}{Z=1}{Y=1,B=0}{X=0,B=1}{Z=k}{Y=k,B=0},k=2,3 (1)

    根据式(1),随机变量Z的概率分布为

    P{Z=k}={pq+(1p)(1θ),k=0p(1q)+(1p)θ(1θ),k=1(1p)θk(1θ),k=2,3, (2)

    式中:0p10q10θ1。根据式(2),p(1p)分别为伯努利分布和几何分布的混合比例。当p=0时,模型为几何分布;当q=1时,模型为零膨胀几何分布(ZIGE)模型。

    Z=(Z1,Z2,,Zn)为ZOIGE分布的样本观测值,由式(2)可得,(p,q,θ)的似然函数为

    L(p,q,θ|Z)=[pq+(1p)(1θ)]M0[p(1q)+(1p)θ(1θ)]M1(1p)nM0M1θM(1θ)nM0M1 (3)

    式中:M0为集合{i:Zi=0}的元素个数;M1为集合{i:Zi=1}的元素个数;M=Zi2Zi。式(3)中,令

    {φ=pq+(1p)(1θ)ϕ=p(1q)+(1p)θ(1θ) (4)

    由式(4)可得,1p=1φϕθ2。经过重参数化后,(φ,ϕ,θ)的似然函数为

    L(φ,ϕ,θ|Z)=φM0ϕM1(1φϕ)nM0M1θM(1θ)nM0M1θ2(nM0M1)

    分别令lnL(φ,ϕ,θ|Z)φ=0lnL(φ,ϕ,θ|Z)ϕ=0lnL(φ,ϕ,θ|Z)θ=0,得到(φ,ϕ,θ)的极大似然估计为

    ˆφ=M0nˆϕ=M1nˆθ=M2(nM0M1)M(nM0M1)

    根据极大似然估计的不变性,得到p,q的极大似然估计为

    ˆp=ˆφ+ˆϕ+ˆθ21ˆθ2ˆq=ˆφ(1ˆp)(1ˆθ)ˆp

    由式(1)推导潜变量(B,X,Y)的条件概率分布为π(B,X,Y|Z,p,q,θ)

    B=0X=0Y=0时,由B=0Y=0可以推出Z=0,则

    P{B=0,X=0,Y=0|Z=0,p,q,θ}=P{B=0,X=0,Y=0,Z=0}P{Z=0}=P{B=0,X=0,Y=0}P{Z=0}=P{B=0}P{X=0}P{Y=0}P{Z=0}=(1p)(1q)(1θ)pq+(1p)(1θ)

    B=0X=1Y=0时,由B=0Y=0可以推出Z=0,则

    P{B=0,X=1,Y=0|Z=0,p,q,θ}=P{B=0,X=1,Y=0,Z=0}P{Z=0}=P{B=0,X=1,Y=0}P{Z=0}=P{B=0}P{X=1}P{Y=0}P{Z=0}=(1p)q(1θ)pq+(1p)(1θ)

    B=1X=1Y=k(k=0,1)时,由B=1X=1可以推出Z=0,则

    P{B=1,X=1,Y=k|Z=0,p,q,θ}=P{B=1,X=1,Y=k,Z=0}P{Z=0}=P{B=1,X=1,Y=k}P{Z=0}=P{B=1}P{X=1}P{Y=k}P{Z=0}=pqθk(1θ)pq+(1p)(1θ)

    易证以上3个条件概率之和为1,因此有

    P{B=i,X=j,Y=k|Z=0,p,q,θ}={(1p)(1q)(1θ)pq+(1p)(1θ),i=0,j=0,k=0(1p)q(1θ)pq+(1p)(1θ),i=0,j=1,k=0pqθk(1θ)pq+(1p)(1θ),i=1,j=1,k=0,10, (5)

    同理可得

    P{B=i,X=j,Y=k|Z=1,p,q,θ}={(1p)(1q)θ(1θ)p(1q)+(1p)θ(1θ),i=0,j=0,k=1(1p)qθ(1θ)p(1q)+(1p)θ(1θ),i=0,j=1,k=1p(1q)θk(1θ)p(1q)+(1p)θ(1θ),i=1,j=0,k=0,10, (6)
    P{B=i,X=j,Y=k|Z=m,p,q,θ}={1q,i=0,j=0,k=mq,i=0,j=1,k=m0, (7)

    其中m=2,3则称式(5)至式(7)为隐变量(B,X,Y)的条件概率分布。

    由式(1)和条件概率分布π(B,X,Y|Z,p,q,θ),在给定Zi条件下,设计(B,X,Y)样本的抽样机制。

    1)若Zi=0,抛掷一枚正面朝上概率为pqpq+(1p)(1θ)的硬币,当出现正面朝上时,令Bi=1Xi=1Yi由几何分布抽样得到;当出现反面朝上时,令Bi=0Yi=0。此时,再抛掷另一枚正面朝上概率为q的硬币,若该硬币出现正面朝上,则令Xi=1;否则,令Xi=0

    2)若Zi=1,抛掷一枚正面朝上概率为p(1q)p(1q)+(1p)θ(1θ)的硬币,当出现正面朝上时,令Bi=1Xi=0Yi由几何分布抽样得到;当出现反面朝上时,令Bi=0Yi=1。此时,再抛掷另一枚正面朝上概率为q的硬币,若该硬币出现正面朝上,则令Xi=1;否则,令Xi=0

    3)若Zi=m(m=2,3),抛掷一枚正面朝上概率为q的硬币,当出现正面朝上时,令Bi=0Xi=1Yi=m;当出现反面朝上时,令Bi=0Xi=0Yi=m

    构建条件概率分布π(B,X,Y|Z,p,q,θ)及其抽样方法是本研究的创新点和重点,在后续的EM算法和贝叶斯推断中起到关键作用。

    Z=(Z1,Z2,,Zn)为来自ZOIGE分布的样本观测值,B=(B1,B2,,Bn)X=(X1,X2,,Xn)Y=(Y1,Y2,,Yn)为隐变量组,则数据扩充下(p,q,θ)的完全似然函数为

    L(p,q,θ|B,X,Y,Z)=ni=1[pqXi(1q)1Xi]Bi[(1p)θYi(1θ)]1Bi=ni=1pBi(1p)1BiqBiXi(1q)Bi(1Xi)θ(1Bi)Yi(1θ)(1Bi) (8)

    完全对数似然函数为

    l(p,q,θ|B,X,Y,Z)=ni=1[Bilnp+(1Bi)ln(1p)]+ni=1[BiXilnq+Bi(1Xi)ln(1q)]+ni=1(1Bi)[Yilnθ+ln(1θ)]

    {l(p|B,X,Y,Z)=ni=1[Bilnp+(1Bi)ln(1p)]l(q|B,X,Y,Z)=ni=1[BiXilnq+Bi(1Xi)ln(1q)]l(θ|B,X,Y,Z)=ni=1(1Bi)[Yilnθ+ln(1θ)]

    在EM算法中,在数据扩充策略下,(p,q,θ)的极大似然估计由E步与M步交替迭代得到。在E步中,根据当前的参数估计(p,q,θ),计算隐变量(Bi,Xi,Yi)的期望;在M步中,将E步中得到的(Bi,Xi,Yi)期望视为常数,对l(p|B,X,Y,Z)l(q|B,X,Y,Z)l(θ|B,X,Y,Z)进行极大化。根据式(5)至式(7),EM算法具体实施如下。

    1)E步:计算B(t+1)i=E(Bi|Zi,p(t),q(t),θ(t))

    Zi=0时,有

    E(Bi|Zi,p(t),q(t),θ(t))=P{Bi=1|Zi=0,p(t),q(t),θ(t)}=k=0P{Bi=1,Xi=1,Yi=k|Zi=0}=k=0p(t)q(t)θ(t)k(1θ(t))p(t)q(t)+(1p(t))(1θ(t))=p(t)q(t)p(t)q(t)+(1p(t))(1θ(t))

    Zi=1时,有

    E(Bi|Zi,p(t),q(t),θ(t))=P{Bi=1|Zi=1,p(t),q(t),θ(t)}=k=0P{Bi=1,Xi=0,Yi=k|Zi=1}=k=0p(t)(1q(t))θ(t)k(1θ(t))p(t)(1q(t))+(1p(t))θ(t)(1θ(t))=p(t)(1q(t))p(t)(1q(t))+(1p(t))θ(t)(1θ(t))

    Zi=m(m=2,3)时,有E(Bi|Zi,p(t),q(t),θ(t))=P{Bi=1|Zi=m,p(t),q(t),θ(t)}=0Bit+1步估计表达式为

    B(t+1)i={p(t)q(t)p(t)q(t)+(1p(t))(1θ(t)),Zi=0p(t)(1q(t))p(t)(1q(t))+(1p(t))θ(t)(1θ(t)),Zi=10,Zi=2,3

    2)E步:计算X(t+1)i=E(Xi|Zi,p(t),q(t),θ(t))

    Zi=0时,有

    E(Xi|Zi,p(t),q(t),θ(t))=P{Xi=1|Zi=0,p(t),q(t),θ(t)}=k=0P{Bi=1,Xi=1,Yi=k|Zi=0}+P{Bi=0,Xi=1,Yi=0|Zi=0}=k=0p(t)q(t)θ(t)k(1θ(t))p(t)q(t)+(1p(t))(1θ(t))+(1p(t))q(t)(1θ(t))p(t)q(t)+(1p(t))(1θ(t))=
    p(t)q(t)+(1p(t))q(t)(1θ(t))p(t)q(t)+(1p(t))(1θ(t))

    Zi=1时,有

    E(Xi|Zi,p(t),q(t),θ(t))=P{Xi=1|Zi=1,p(t),q(t),θ(t)}=P{Bi=0,Xi=1,Yi=1|Zi=1}=(1p(t))q(t)θ(t)(1θ(t))p(t)(1q(t))+(1p(t))θ(t)(1θ(t))

    Zi=m(m=2,3)时,有

    E(Xi|Zi,p(t),q(t),θ(t))=P{Xi=1|Zi=m,p(t),q(t),θ(t)}=P{Bi=0,Xi=1,Yi=m|Zi=m}=q(t)

    Xit+1步估计表达式为

    X(t+1)i={p(t)q(t)+(1p(t))q(t)(1θ(t))p(t)q(t)+(1p(t))(1θ(t)),Zi=0(1p(t))q(t)θ(t)(1θ(t))p(t)(1q(t))+(1p(t))θ(t)(1θ(t)),Zi=1q(t),Zi=2,3

    3)E步:计算Y(t+1)i=E(Yi|Zi,p(t),q(t),θ(t))

    Zi=0时,有

    E(Yi|Zi,p(t),q(t),θ(t))=k=0kP{Yi=k|Zi=0,p(t),q(t),θ(t)}=k=0kP{Bi=1,Xi=1,Yi=k|Zi=0}=k=0kp(t)q(t)θ(t)k(1θ(t))p(t)q(t)+(1p(t))(1θ(t))=p(t)q(t)θ(t)p(t)q(t)(1θ(t))+(1p(t))(1θ(t))2

    Zi=1时,有

    E(Yi|Zi,p(t),q(t),θ(t))=k=0kP{Yi=k|Zi=1,p(t),q(t),θ(t)}=P{Bi=0,Xi=0,Yi=1|Zi=1,p(t),q(t),θ(t)}+P{Bi=0,Xi=1,Yi=1|Zi=1,p(t),q(t),θ(t)}+k=0kP{Bi=1,Xi=0,Yi=k|Zi=1,p(t),q(t),θ(t)}=
    (1p(t))(1q(t))θ(t)(1θ(t))p(t)(1q(t))+(1p(t))θ(t)(1θ(t))+(1p(t))q(t)θ(t)(1θ(t))p(t)(1q(t))+(1p(t))θ(t)(1θ(t))+k=0k(1p(t))q(t)θ(t)k(1θ(t))p(t)(1q(t))+(1p(t))θ(t)(1θ(t))=(1p(t))θ(t)(1θ(t))p(t)(1q(t))+(1p(t))θ(t)(1θ(t))+(1p(t))q(t)θ(t)p(t)(1q(t))(1θ(t))+(1p(t))θ(t)(1θ(t))2=(1p(t))θ(t)(1θ(t))2+(1p(t))q(t)θ(t)p(t)(1q(t))(1θ(t))+(1p(t))θ(t)(1θ(t))2

    Zi=m(m=2,3)时,有

    E(Yi|Zi,p(t),q(t),θ(t))=k=0kP{Yi=k|Zi=m,p(t),q(t),θ(t)}=mP{Bi=0,Xi=0,Yi=m|Zi=m}+mP{Bi=0,Xi=1,Yi=m|Zi=m}=m(1q(t))+mq(t)=m=Zi

    Yit+1步估计表达式为

    Y(t+1)i={p(t)q(t)θ(t)p(t)q(t)(1θ(t))+(1p(t))(1θ(t))2,Zi=0(1p(t))θ(t)(1θ(t))2+(1p(t))q(t)θ(t)p(t)(1q(t))(1θ(t))+(1p(t))θ(t)(1θ(t))2,Zi=1Zi,Zi=2,3

    4)M步

    l(p|B,X,Y,Z)p=0l(q|B,X,Y,Z)q=0l(θ|B,X,Y,Z)θ=0时,分别得到

    p(t+1)=ni=1B(t+1)inq(t+1)=ni=1B(t+1)iX(t+1)inθ(t+1)=ni=1(1B(t+1)i)Y(t+1)ini=1(1B(t+1)i)(Y(t+1)i+1)

    根据文献[9]可得,由EM算法产生的序列(p(k),q(k),θ(k))收敛,其极限值为L(p,q,θ|B,X,Y,Z)的局部最大值点。当(p(k),q(k),θ(k))在收敛过程中小于预先指定的常数时,迭代停止,最后一次迭代值认为是EM算法下(p,q,θ)的极大似然估计值。

    常用的先验分布为无信息先验和共轭先验,但对于ZOIGE分布,精确的共轭先验很难获得。因此,本节采用navie flat先验作为先验分布。它是一种比较简单的先验分布,参数的取值在某个范围内是均匀分布的,即对参数没有额外的先有知识。由式(3)可得,(p,q,θ)的后验分布为

    π(p,q,θ|Z)L(p,q,θ|Z)=[pq+(1p)(1θ)]M0[p(1q)+(1p)θ(1θ)]M1(1p)nM0M1θM(1θ)nM0M1 (9)
    π(p,q,θ|Z)jpS1jqS2j(1p)S3j(1q)S4jθM+S5j(1θ)S6j (10)

    式中:0<Sijni=1,2,3,4,5,6

    从式(10)可以看出,后验分布π(p,q,θ)不是常见概率分布,虽然可以直接使用马尔可夫链蒙特卡罗(Markov chain Monte Carlo, MCMC)方法来获得后验样本,但后验分布的表达式相对复杂,导致抽样的效率降低。为提高抽样效率,本节基于数据扩充下的完全似然函数和navie flat先验,将复杂的后验分布分解成简单的乘积形式,设计Gibbs抽样算法,加快抽样过程并提高效率。由式(8)可得,基于数据扩充下(p,q,θ)的后验分布为

    π(p,q,θ|B,X,Y,Z)L(p,q,θ|B,X,Y,Z)=ni=1pBi(1p)1BiqBiXi(1q)Bi(1Xi)θ(1Bi)Yi(1θ)(1Bi)=pni=1Bi(1p)nni=1Biqni=1BiXi(1p)ni=1Bi(1Xi)θni=1(1Bi)Yi(1θ)nni=1Bi (11)

    根据式(11)可得(p,q,θ)的满条件概率分布。

    π(p|q,θ,B,X,Y,Z)pni=1Bi(1p)nni=1Bip的满条件概率分布为

    p|q,θ,B,X,Y,ZBeta(1+ni=1Bi,n+1ni=1Bi) (12)

    π(q|p,θ,B,X,Y,Z)qni=1BiXi(1p)ni=1Bi(1Xi)q的满条件概率分布为

    q|p,θ,B,X,Y,ZBeta(1+ni=1BiXi,1+ni=1Bi(1Xi)) (13)

    π(θ|p,q,θ,B,X,Y,Z)θni=1(1Bi)Yi(1θ)nni=1Biθ的满条件概率分布为

    θ|p,q,θ,B,X,Y,ZBeta(1+ni=1(1Bi)Yi,n+1ni=1Bi) (14)

    结合3.2节,设计Gibbs抽样机制,具体步骤如下。

    第一,设置参数初始值(p(0),q(0),θ(0))

    第二,对t=1,2,进行迭代更新:

    1)利用前一步的参数估计(p(t1),q(t1),θ(t1))及条件概率分布π(B,X,Y|Z,p,q,θ),得到样本(B(t)i,X(t)i,Y(t)i)

    2)由Beta(1+ni=1B(t)i,n+1ni=1B(t)i)产生样本p(t)

    3)由Beta(1+ni=1B(t)iX(t)i,1+ni=1B(t)i(1X(t)i))产生样本q(t)

    4)由Beta(1+ni=1(1B(t)i)Y(t)i,n+1ni=1B(t)i)产生样本θ(t)

    通过数值模拟,对3种ZOIGE分布参数估计的方法进行评估。样本容量分别设为n=200n=500,几何分布中成功的概率参数θ分别设为0.30.8p的值设为0.30.7q的值设为0.40.6,所有模拟都重复2 000次。模拟过程中,计算参数估计量的均值和均方误差见表1表2

    表  1  参数估计量的均值
    Table  1.  Mean of parameter estimators
    参数MLEMLE(EM)Bayes
    θpqnθMpMqMθEpEqEθBpBqB
    0.3 0.3 0.4 200 0.306 0.278 0.386 0.324 0.338 0.415 0.275 0.274 0.364
    500 0.295 0.286 0.390 0.313 0.327 0.394 0.291 0.283 0.387
    0.6 200 0.302 0.271 0.587 0.319 0.286 0.573 0.283 0.285 0.575
    500 0.296 0.282 0.593 0.305 0.291 0.586 0.288 0.294 0.588
    0.7 0.4 200 0.282 0.675 0.378 0.323 0.662 0.361 0.281 0.656 0.365
    500 0.294 0.712 0.417 0.309 0.681 0.386 0.287 0.685 0.382
    0.6 200 0.317 0.734 0.584 0.285 0.665 0.576 0.313 0.721 0.581
    500 0.293 0.717 0.590 0.291 0.684 0.588 0.306 0.709 0.585
    0.8 0.3 0.4 200 0.754 0.265 0.353 0.726 0.271 0.354 0.763 0.287 0.463
    500 0.786 0.286 0.382 0.762 0.284 0.386 0.787 0.291 0.486
    0.6 200 0.722 0.275 0.577 0.779 0.279 0.548 0.761 0.283 0.576
    500 0.781 0.282 0.582 0.786 0.282 0.588 0.792 0.292 0.587
    0.7 0.4 200 0.786 0.637 0.368 0.756 0.718 0.367 0.783 0.687 0.376
    500 0.792 0.668 0.382 0.788 0.711 0.375 0.790 0.693 0.384
    0.6 200 0.776 0.686 0.564 0.772 0.728 0.578 0.784 0.685 0.564
    500 0.783 0.695 0.589 0.792 0.708 0.590 0.791 0.694 0.593
    下载: 导出CSV 
    | 显示表格
    表  2  参数估计量的均方误差
    Table  2.  MSE of parameter estimators
    参数MLEMLE(EM)Bayes
    θpqnθMpMqMθEpEqEθBpBqB
    0.3 0.3 0.4 200 0.124 0.275 0.299 0.082 0.123 0.093 0.072 0.142 0.118
    500 0.067 0.229 0.278 0.033 0.108 0.092 0.032 0.105 0.093
    0.6 200 0.121 0.271 0.392 0.074 0.109 0.127 0.064 0.114 0.094
    500 0.068 0.232 0.361 0.034 0.113 0.159 0.023 0.076 0.059
    0.7 0.4 200 0.212 0.313 0.198 0.136 0.112 0.126 0.060 0.244 0.064
    500 0.107 0.297 0.164 0.085 0.109 0.115 0.046 0.115 0.056
    0.6 200 0.205 0.307 0.278 0.122 0.218 0.189 0.053 0.098 0.091
    500 0.114 0.293 0.253 0.081 0.196 0.109 0.048 0.073 0.084
    0.8 0.3 0.4 200 0.114 0.085 0.143 0.074 0.071 0.154 0.113 0.187 0.133
    500 0.093 0.044 0.134 0.068 0.056 0.134 0.086 0.143 0.126
    0.6 200 0.122 0.055 0.141 0.058 0.021 0.148 0.121 0.124 0.131
    500 0.091 0.038 0.122 0.023 0.018 0.129 0.091 0.117 0.127
    0.7 0.4 200 0.084 0.067 0.142 0.154 0.082 0.043 0.087 0.163 0.141
    500 0.069 0.042 0.138 0.108 0.068 0.035 0.067 0.144 0.137
    0.6 200 0.054 0.064 0.094 0.128 0.032 0.078 0.076 0.118 0.162
    500 0.049 0.034 0.089 0.113 0.029 0.062 0.057 0.115 0.149
    下载: 导出CSV 
    | 显示表格

    表1可知,当θ较小时,3种估计方法在估计值的精确性方面大致相当,随着样本容量的增加,估计值越来越接近真实值;当θ较大时,极大似然估计与EM算法下的极大似然估计表现较好,而贝叶斯估计方法表现欠佳。当p较小时,3种方法下θ的估计值在精确性方面要高于p较大时的情况,这是因为当p较大时,样本来源于几何分布的概率较小,影响了估计效果。

    表2可知,当θ较小时,贝叶斯方法比其他两种估计方法更稳定;当θ较大时,其他两种方法稳定性相当,而贝叶斯方法则没有其余两种估计方法的稳定性好。

    本节对R包NMMAPS中1994年底特律每日交通事故导致死亡的数据集进行研究,该数据集共有365个观测数据点,拟合结果如图1所示,0和1的观测频数较高,表现出明显的0−1膨胀现象。然而传统的泊松分布和负二项分布没有很好的拟合效果,故采用本文模型进行拟合。在拟合过程中,对于EM算法下的极大似然估计,E步和M步的迭代次数为500次,在贝叶斯方法中,隐变量的更新次数为3 000次,burn-in为2 000次。参数的点估计见表3。参数的拟合值见表4。可以看出,从比较AIC及拟合值与观测值的接近程度来看,贝叶斯方法的估计相较于其他两种方法效果更佳。

    图  1  1994年底特律交通事故死亡数量的拟合频数
    Figure  1.  Fitted frequency of traffic accident deaths in Detroit in 1994
    表  3  3种方法下参数的点估计
    Table  3.  Point estimation of parameters under three methods
    参数MLEMLE(EM)Bayes
    θ0.01310.01310.0127
    p0.68300.68040.6616
    q0.64850.64900.6515
    AIC670.0665668.0072660.273
    下载: 导出CSV 
    | 显示表格
    表  4  3种方法下观测值与拟合值的比较
    Table  4.  Comparison of observed and fitted values under three methods
    观测值观测频数MLEMLE(EM)Bayes
    0181180180181
    1122120120121
    228313129
    325272728
    45564
    52211
    61001
    71000
    下载: 导出CSV 
    | 显示表格

    鉴于样本数据中存在较多的零、一观测值,本研究建立了0−1膨胀几何分布模型,采用极大似然估计法、EM算法下的极大似然估计法和贝叶斯方法进行参数估计。为解释样本数据中零一膨胀现象,引入隐变量,将复杂的似然函数转化为简单的乘积形式,便于进行理论分析与试验模拟。在参数估计方面,研究表明,EM算法下的极大似然估计和贝叶斯估计表现更好,随着样本量的增加,得到的参数估计更加接近真实值,估计结果更为无偏和有效。在未来的研究中,可继续探索其他的研究方法,进一步提高对膨胀数据的建模和预测能力。

  • 图  1  1994年底特律交通事故死亡数量的拟合频数

    Figure  1.  Fitted frequency of traffic accident deaths in Detroit in 1994

    表  1  参数估计量的均值

    Table  1.   Mean of parameter estimators

    参数MLEMLE(EM)Bayes
    θpqnθMpMqMθEpEqEθBpBqB
    0.3 0.3 0.4 200 0.306 0.278 0.386 0.324 0.338 0.415 0.275 0.274 0.364
    500 0.295 0.286 0.390 0.313 0.327 0.394 0.291 0.283 0.387
    0.6 200 0.302 0.271 0.587 0.319 0.286 0.573 0.283 0.285 0.575
    500 0.296 0.282 0.593 0.305 0.291 0.586 0.288 0.294 0.588
    0.7 0.4 200 0.282 0.675 0.378 0.323 0.662 0.361 0.281 0.656 0.365
    500 0.294 0.712 0.417 0.309 0.681 0.386 0.287 0.685 0.382
    0.6 200 0.317 0.734 0.584 0.285 0.665 0.576 0.313 0.721 0.581
    500 0.293 0.717 0.590 0.291 0.684 0.588 0.306 0.709 0.585
    0.8 0.3 0.4 200 0.754 0.265 0.353 0.726 0.271 0.354 0.763 0.287 0.463
    500 0.786 0.286 0.382 0.762 0.284 0.386 0.787 0.291 0.486
    0.6 200 0.722 0.275 0.577 0.779 0.279 0.548 0.761 0.283 0.576
    500 0.781 0.282 0.582 0.786 0.282 0.588 0.792 0.292 0.587
    0.7 0.4 200 0.786 0.637 0.368 0.756 0.718 0.367 0.783 0.687 0.376
    500 0.792 0.668 0.382 0.788 0.711 0.375 0.790 0.693 0.384
    0.6 200 0.776 0.686 0.564 0.772 0.728 0.578 0.784 0.685 0.564
    500 0.783 0.695 0.589 0.792 0.708 0.590 0.791 0.694 0.593
    下载: 导出CSV

    表  2  参数估计量的均方误差

    Table  2.   MSE of parameter estimators

    参数MLEMLE(EM)Bayes
    θpqnθMpMqMθEpEqEθBpBqB
    0.3 0.3 0.4 200 0.124 0.275 0.299 0.082 0.123 0.093 0.072 0.142 0.118
    500 0.067 0.229 0.278 0.033 0.108 0.092 0.032 0.105 0.093
    0.6 200 0.121 0.271 0.392 0.074 0.109 0.127 0.064 0.114 0.094
    500 0.068 0.232 0.361 0.034 0.113 0.159 0.023 0.076 0.059
    0.7 0.4 200 0.212 0.313 0.198 0.136 0.112 0.126 0.060 0.244 0.064
    500 0.107 0.297 0.164 0.085 0.109 0.115 0.046 0.115 0.056
    0.6 200 0.205 0.307 0.278 0.122 0.218 0.189 0.053 0.098 0.091
    500 0.114 0.293 0.253 0.081 0.196 0.109 0.048 0.073 0.084
    0.8 0.3 0.4 200 0.114 0.085 0.143 0.074 0.071 0.154 0.113 0.187 0.133
    500 0.093 0.044 0.134 0.068 0.056 0.134 0.086 0.143 0.126
    0.6 200 0.122 0.055 0.141 0.058 0.021 0.148 0.121 0.124 0.131
    500 0.091 0.038 0.122 0.023 0.018 0.129 0.091 0.117 0.127
    0.7 0.4 200 0.084 0.067 0.142 0.154 0.082 0.043 0.087 0.163 0.141
    500 0.069 0.042 0.138 0.108 0.068 0.035 0.067 0.144 0.137
    0.6 200 0.054 0.064 0.094 0.128 0.032 0.078 0.076 0.118 0.162
    500 0.049 0.034 0.089 0.113 0.029 0.062 0.057 0.115 0.149
    下载: 导出CSV

    表  3  3种方法下参数的点估计

    Table  3.   Point estimation of parameters under three methods

    参数MLEMLE(EM)Bayes
    θ0.01310.01310.0127
    p0.68300.68040.6616
    q0.64850.64900.6515
    AIC670.0665668.0072660.273
    下载: 导出CSV

    表  4  3种方法下观测值与拟合值的比较

    Table  4.   Comparison of observed and fitted values under three methods

    观测值观测频数MLEMLE(EM)Bayes
    0181180180181
    1122120120121
    228313129
    325272728
    45564
    52211
    61001
    71000
    下载: 导出CSV
  • [1] 张良超, 周金亮, 温利民. 零膨胀泊松模型中风险参数的贝叶斯估计[J] . 江西师范大学学报(自然科学版),2020,44(3):269 − 274. doi: 10.16357/j.cnki.issn1000-5862.2020.03.10
    [2] 肖翔, 刘福窑. 零膨胀几何分布的参数估计[J] . 上海工程技术大学学报,2018,32(3):267 − 271,277. doi: 10.3969/j.issn.1009-444X.2018.03.013
    [3] ZHANG C, TIAN G L, NG K W. Properties of the zero-and-one inflated poisson distribution and likelihood-based inference methods[J] . Statistics and Its Interface,2016,9(1):11 − 32. doi: 10.4310/SII.2016.v9.n1.a2
    [4] TANG Y C, LIU W C, XU A C. Statistical inference for zero-and-one-inflated poisson models[J] . Statistical Theory and Related Fields,2017,1(2):216 − 226. doi: 10.1080/24754269.2017.1400419
    [5] JORNSATIAN C, BODHISUWAN W. Zero-one inflated negative binomial-beta exponential distribution for count data with many zeros and ones[J] . Communications in Statistics: Theory and Methods,2022,51(24):8517 − 8531. doi: 10.1080/03610926.2021.1898642
    [6] TAJUDDIN R R, ISMAIL N, IBRAHIM K, et al. A new zero–one-inflated poisson–lindley distribution for modelling overdispersed count data[J] . Bulletin of the Malaysian Mathematical Sciences Society,2022,45(1):21 − 35.
    [7] XIAO X, TANG Y C, XU A C, et al. Bayesian inference for zero-and-one-inflated geometric distribution regression model using Pólya-Gamma latent variables[J] . Communications in Statistics - Theory and Methods,2020,49(15):3730 − 3743. doi: 10.1080/03610926.2019.1709647
    [8] 肖翔, 古晞. 0–1膨胀几何分布的客观贝叶斯分析[J] . 上海工程技术大学学报,2021,35(3):266 − 271.
    [9] WU C F J. On the convergence properties of the EM algorithm[J] . The Annals of Statistics,1983,11(1):95 − 103.
  • 加载中
图(1) / 表(4)
计量
  • 文章访问数:  485
  • HTML全文浏览量:  223
  • PDF下载量:  86
  • 被引次数: 0
出版历程
  • 收稿日期:  2023-10-09
  • 刊出日期:  2024-06-30

目录

/

返回文章
返回