前两天对两大连续型分布:均匀分布和指数分布的点估计进行了讨论,导出了我们以后会用到的两大分布:\(\beta\)分布和\(\Gamma\)分布。今天,我们将讨论离散分布中的泊松分布。其实,最简单的离散分布应该是两点分布,但由于在上一篇文章的最后,提到了\(\Gamma\)分布和泊松分布的联系,因此本文从泊松分布出发。由于本系列为我独自完成的,缺少审阅,如果有任何错误,欢迎在评论区中指出,谢谢!
目录
- Part 1:泊松分布简介
- Part 2:泊松分布的点估计
- Part 3:其他离散分布的点估计
Part 1:泊松分布简介
泊松分布是一种离散分布,先给出其概率分布列。若\(X\sim P(\lambda)\),则
\[\mathbb{P}(X=k)=\frac{\lambda^k}{k!}e^{-\lambda},\quad k=0,1,\cdots \]
它的取值是无限可列的。
为什么泊松分布会与指数分布、\(\Gamma\)分布有联系呢?这是因为,它们三个都是随机事件发生的一种描述。
实际上,指数分布的参数\(\lambda\)是一种速率的体现,它刻画了随机事件发生的速率。而指数分布随机变量的取值,就代表某一事件在一定的速率下发生的时刻距离计时原点的长度。\(Y\sim E(\lambda)\),就代表\(Y\)对应的事件事件的发生速率是\(\lambda\),所以平均发生时间就在在\(1/\lambda\)处。这也可以作为\(\mathbb{E}(Y)=1/\lambda\)的一种解释。
指数分布具有无记忆性,这与随机事件的发生相似,即已经发生历史事件对未来不产生影响,用数学语言说就是\(\mathbb{P}(Y>s+t|Y>s)=\mathbb{P}(Y>t)\)。这指的是,如果一个事件平均会在\(s\)时间后发生,但是目前经过了\(t\)时间还没有发生,则事件的平均发生时间就移动到\(t+s\)时间后。它不会因为你已经等了\(t\)时间,就会更快地发生。
而如果把\(n\)个独立同分布于\(E(\lambda)\)指数分布随机变量相加,得到的自然就是恰好发生\(k\)个事件的平均时间,这个时间\(Z\sim \Gamma(n,\lambda)\),本质还是一种时间的度量。但\(Z\)就不具有无记忆性了,这是因为,经过\(t\)时间后可能已经发生了\(n-1\)个事件就差最后一个没有发生,也可能一个事件都没发生还需要\(n\)个才能凑齐。
泊松分布则刚好相反,指数分布和\(\Gamma\)分布都是限定了发生次数,对发生时间作度量;泊松分布则是限定了时间\(1\),求随机事件在这一段时间内发生的次数服从的概率分布。因此,泊松分布和指数分布、\(\Gamma\)分布才会存在着这样的联系。
以上结论,在随机过程中会有广泛的应用。
接下来要介绍泊松分布的一种实用性质:可加性。若\(X_1\sim P(\lambda_1)\),\(X_2\sim P(\lambda_2)\)且相互独立,则
\[X_1+X_2\sim P(\lambda_1+\lambda_2). \]
如果两个独立泊松变量的可加性成立,则自然可以推广到有限多个独立泊松变量,下面利用离散卷积公式给出证明。
\[\begin{aligned} \mathbb{P}(X_1+X_2=k)&=\sum_{j=0}^{k}\mathbb{P}(X_1=j)\mathbb{P}(X_2=k-j)\\ &=\sum_{j=0}^k\frac{\lambda_1^j}{j!}e^{-\lambda_1}\cdot\frac{\lambda_2^{k-j}}{(k-j)!}e^{-\lambda_2}\\ &=\frac{e^{-(\lambda_1+\lambda_2)}}{k!}\sum_{j=0}^{k}\frac{k!}{j!(k-j)!}\lambda_1^j\lambda_2^{k-j}\\ &=\frac{(\lambda_1+\lambda_2)^{k}}{k!}e^{-(\lambda_1+\lambda_2)}. \end{aligned} \]
这是泊松分布的概率分布列。
还可以利用泊松分布的特征函数来证明。设\(X\sim P(\lambda)\),则
\[\begin{aligned} \phi_X(t)&=\mathbb{E}(e^{\mathrm{i}tX})\\ &=\sum_{j=0}^{\infty}\frac{\lambda^j}{j!}e^{\mathrm{i}tj-\lambda}\\ &=e^{-\lambda}\sum_{j=0}^{\infty}\frac{(\lambda e^{\mathrm{i}t})^j}{j!}\\ &=e^{-\lambda(e^{{\rm i}t}-1)}. \end{aligned} \]
所以当\(X_1\sim P(\lambda_1)\),\(X_2\sim P(\lambda_2)\)且相互独立时,
\[\phi_{X_1+X_2}(t)=e^{-(\lambda_1+\lambda_2)(e^{{\rm i}t}-1)}, \]
即\(X_1+X_2\sim P(\lambda_1+\lambda_2)\)。
知道了泊松分布具有可加性后,我们接下来讨论泊松分布的点估计就会很方便。
Part 2:泊松分布的点估计
对泊松分布的估计其实没有什么难点,无非是将因子分解定理用到了离散情况罢了。对于离散情况,要写出其联合概率分布:
\[\begin{aligned} &\quad \mathbb{P}(X_1=x_1,\cdots,X_n=x_n)\\ &=\prod_{j=1}^n \frac{\lambda^{x_j}}{x_j!}e^{-\lambda}\\ &=e^{-n\lambda}\lambda^{\sum_{j=1}^n x_j}\cdot\frac{1}{\prod_{j=1}^n (x_j!)}\\ &\xlongequal{def}g\left(\sum_{j=1}^n x_j,\lambda \right)\cdot h(\boldsymbol{x}), \end{aligned} \]
故\(T=\sum_{j=1}^n X_j\sim P(n\lambda)\)是\(\lambda\)的充分统计量,这说明\(\bar X\)也是充分统计量。又因为\(\mathbb{E}(X)=\lambda\),所以\(\mathbb{E}(\bar X)=\lambda\),证明了\(\bar X\)是无偏的,由强大数定律,\(\bar X\)还是强相合的。
从这里得到的启示是,在写离散分布的概率密度函数时,要写
\[\mathbb{P}(X_1=x_1,\cdots,X_n=x_n). \]
这个表达式以后也会起到很大的作用。
对于离散分布,有时会需要你用定义验证参数估计量的充分性(别说你已经把定义忘了),就是
\[\mathbb{P}(X_1=x_1,\cdots,X_n=x_n|T=t) \]
与参数的无关性。我们现在对泊松分布的充分估计量\(T=\sum_{j=1}^n X_j\)验证这一点,对于离散分布,步骤可能和连续分布略有不同,因为不使用Jacobi变换似乎更简单一些,特别是\(T\sim P(n\lambda)\)的分布已知时。
\[\begin{aligned} &\quad \mathbb{P}(X_1=x_1,\cdots,X_{n}=x_n|T=t)\\ &=\frac{\mathbb{P}(X_1=x_1,\cdots,X_{n-1}=x_{n-1},X_n=T-\sum_{j=1}^{n-1}x_j)}{\mathbb{P}(T=t)}\\ &=\prod_{j=1}^{n-1}\left(\frac{\lambda^{x_j}}{x_j!}e^{-\lambda}\right)\cdot\frac{\lambda^{t-\sum_{j=1}^{n-1}x_j}}{(t-\sum_{j=1}^{n-1}x_j)!}e^{-\lambda}\bigg/\left(\frac{\lambda^t}{t!}e^{-n\lambda} \right)\\ &=\frac{t!}{(\prod_{j=1}^{n-1}x_j!)(t-\sum_{j=1}^{n-1}x_j)!}. \end{aligned} \]
显然这个概率与\(\lambda\)无关,所以\(T\)是充分统计量。
Part 3:其他离散分布的点估计
本来以为泊松分布能写的东西不少,结果大多笔墨花在了背景介绍上,关于泊松分布点估计却只写了短短几行。既然如此,本文就将常用离散分布的点估计全部给出。
对于两点分布\(B(1,p)\),注意到\(P(X=x)=p^x(1-p)^{1-x}\),所以其联合概率函数是
\[\mathbb{P}(X_1=x_1,\cdots,X_n=x_n)=p^{\sum_{j=1}^nx_j}(1-p)^{n-\sum_{j=1}^n x_j}, \]
得到其充分统计量为\(T=\sum_{j=1}^n X_j\),又\(T\sim B(n,p)\),所以\(\mathbb{E}(T)=np\),无偏充分估计量为
\[\bar X=\frac{T}{n},\quad \mathbb{E}(\bar X)=p. \]
可以用定义验证它是充分统计量。
对于几何分布\(G(p)\),注意到\(P(X=x)=(1-p)^{x-1}p\),所以其联合概率函数是
\[\mathbb{P}(X_1=x_1,\cdots,X_n=x_n)=p^{n}(1-p)^{\sum_{j=1}^n x_j-n}, \]
所以其充分统计量依然是\(T=\sum_{j=1}^n X_j\)(这太常见了),而几何分布的均值是参数的倒数(就像指数分布一般),因此我们也要研究\(T\)的分布。
从实际意义来探究可能会更好一些。如果把\(X\)看作一个连续多次二项分布的实验中,第一次成功所需实验的总次数,则\(X=k\)指的是前\(k-1\)次实验全部失败,第\(k\)次恰好成功。推广到\(T=\sum_{j=1}^n X_j\),则\(T=k\)指的是前\(k-1\)次试验恰好有\(n-1\)次成功,第\(n\)次恰好又成功。基于此,我们可以给出\(T\)的概率分布列为
\[\mathbb{P}(T=k)=C_{k-1}^{n-1}p^{n}(1-p)^{k-n},\quad k\ge n.\\ \sum_{k=n}^{\infty}C_{k-1}^{n-1}p^n(1-p)^{k-n}=1. \]
称具有如此分布列的随机变量\(T\)服从负二项分布\(T\sim NB(n,p)\),又叫做帕斯卡分布。
计算\(T\)的均值用到的trick与\(\Gamma\)分布时的一致,无非是\(\Gamma\)分布需要将\(\Gamma\)函数展开,这里将二项式系数展开罢了。但是\(1/T\)的均值却不好计算,所以难以得到其无偏估计。
本文对离散型随机变量的参数估计作了小小的总结,可以看到离散型随机变量的参数估计与连续型随机变量的步骤大致相同,只是将联合密度函数写成了联合概率分布。我们也可以看到,对有些参数估计进行无偏调整比较容易,对有些参数估计则难以得到无偏估计。
虽然我们已经讨论了常用的分布,但是分布是无穷无尽的,不可能对每种分布都详尽讨论;另外,即使是我们已经讨论过的分布,也可能衍生出奇奇怪怪的参数,比如均匀分布可能是\(U(\frac{1}{a},a)\),对\(a\)作估计……等等。有什么方法可以对参数估计进行综合的讨论呢?下一篇文章将讨论常用的点估计方法。