数理知识:参数估计——点估计、区间估计及置信区间

九月 09, 2019

当前设备屏幕尺寸过小，推荐使用PC模式浏览。

Preliminaries

了解参数估计，需要知道以下先导知识：

数学期望、方差与协方差
常用概率分布及其期望、方差

参见：[数理知识]机器学习入门: 概率论与信息论基础 - 常用概率分布及其期望、方差

参数估计问题

参数估计是数理统计中重要的统计推断问题之一。
给定 $x \sim P(x;\theta)$ ，参数 $\theta$ 控制了 $x$ 的分布“范围”：

我们在已知其概率分布模型和一系列随机变量 $x$ 的值之后，试图推测出 $\theta$ 的值；（点估计）
在点估计的基础上，从抽样数据的统计计算中可以对其与总体样本的真实参数的接近程度求出一个概率度量，在此概率下给出总体参数估计的一个可信的区间范围。（区间估计）

这类问题就被统称为参数估计问题。

一、大数定律及中心极限定理

在正式开始参数估计之前，需要了解一下其先导知识——大数定律及中心极限定理。

切比雪夫不等式(Chebyshev)

设 $x$ 是随机变量，如果其期望 $\mathbb E$ 和方差 $Var(x)$ 存在，则 $\forall \varepsilon>0$ 有：

\frac{Var(x)}{\varepsilon^2} \ge P(\vert x-\mathbb E \vert \ge \varepsilon)

证明：
∵ $\vert x - \mathbb E \vert \ge \varepsilon$ 且 $\varepsilon \ge 0$ 所以有 $(\frac{\vert x-\mathbb E \vert}{\varepsilon})^2 \ge 1$ 。

设 $x$ 的概率密度函数为 $p(x)$ ，则有：
$\begin{aligned} P(\vert x-\mathbb E \vert \ge \varepsilon) &= \int_{\vert x-\mathbb E \vert \ge \varepsilon}p(x)dx\\ &\le \int_{\vert x-\mathbb E \vert \ge \varepsilon}(\frac{\vert x-\mathbb E \vert}{\varepsilon})^2p(x)dx\\ &\le {\varepsilon}^{-2} \int_{-\infin}^{+\infin}(\vert x-\mathbb E \vert)^2 p(x)dx \\ P(\vert x-\mathbb E \vert \ge \varepsilon) &\le \frac{Var(x)}{\varepsilon^2} \end{aligned}$
∴ 原命题得证。

显然， $1-\frac{Var(x)}{\varepsilon^2} \le P(\vert x-\mathbb E \vert < \varepsilon)$ 。
切比雪夫不等式给出了如何在随机变量的分布未知而期望和方差已知的情况下估计 $P(\vert x-\mathbb E \vert \ge \varepsilon)$ 的极限。
下文中的切比雪夫大数定律等几个大数定律变形均可由切比雪夫不等式证明得到。

大数定律(Law of Large Numbers)

依概率收敛 : 设有随机变量序列 $x_1,x_2,\cdots ,x_n,\cdots$ 对随机变量 $x$ 使得 $\forall \varepsilon>0$ 有：

\lim_{n \rightarrow \infin}P\left( \vert x-x_n \vert \ge \varepsilon \right)=0

则称序列 $x_i$ 依概率收敛于 $x$ ，记为 $x_i \stackrel{P}{\longrightarrow}x$ 。

大数定律：设有随机变量序列 $x_1,x_2,\cdots ,x_n,\cdots$ ，其任意划分的互斥组合的期望值从小到大排列为 $a_1,a_2,\cdots ,a_n$ 使得 $\forall \varepsilon>0$ 有：

\lim_{n \rightarrow \infin}P \left( \vert \frac{1}{n}\sum_{i=1}^{n}x_i-a_n \vert \ge \varepsilon \right)=0

或记作：

\frac{1}{n}\sum_{i=1}^nx_i \stackrel{P}{\longrightarrow }a_n,~n \rightarrow \infin

Tip：大数定律说明了随机变量序列前若干项的算术平均值在某种条件下收敛到这些项的数学期望。（注意：数学期望 $\mathbb E$ 在概念上不等于算术平均值 $\frac{1}{n}\sum_i^n x_i$ ，只有在 $x_i$ 等概率分布时二者等值。）

大数定律以严格的数学形式表现了随机事件在足够的广度上的频率稳定性。利用这一性质，我们可以基于抽样样本中的均值来估计整体的均值。

它具有以下几个变形：

切比雪夫大数定律 设相互独立的随机变量序列(集合) $x_1,x_2,\cdots ,x_n,\cdots$ 具有相同的数学期望 $\mu_i=\mu$ ，若其也具有相同的方差或方差 $\sigma_i^2<C$ ， $C$ 为一个大于零的常数，则对于 $\forall \varepsilon>0$ 有：

\begin{aligned} \lim_{n \rightarrow \infin}P&\left( \vert \frac{1}{n}\sum_{i=1}^{n}x_i-\mu \vert \ge \varepsilon \right)=0\\ &\frac{1}{n}\sum_{i=1}^nx_i \stackrel{P}{\longrightarrow }\mu \end{aligned}

该定律说明了在方差满足一定条件时，序列服从大数定律。

khintchine大数定律 设相互独立的随机变量序列(集合) $x_1,x_2,\cdots ,x_n,\cdots$ 满足同分布且具有有限的数学期望时，序列服从大数定律。该定理在切比雪夫大数定律的基础上，补充了当方差未知或不存在时，序列是否满足大数定律的问题。

3 中心极限定理(central limit theorems)

Lindeberg-Levy中心极限定理：设随机变量序列 $x_1,x_2,\cdots ,x_n,\cdots$ 满足独立同分布假设，记 $\sum_i^n x_i = X$ ，若 $\mu_i=\mu$ 、 $\sigma_i^2=\sigma^2$ ，当 $n$ 足够大时， $X$ 近似满足 $X \sim N(n\mu,n\sigma^2)$ 或者说 $\frac{1}{n}\sum_i^n x_i \sim N(\mu,\frac{\sigma^2}{n})$ 。

Lyapunov中心极限定理：(一般化推广) 设随机变量序列 $x_1,x_2,\cdots ,x_n,\cdots$ 满足独立同分布假设，记 $\sum_i^n x_i = X$ ，当 $n$ 足够大时， $X$ 近似满足 $X \sim N(\sum_i^n \mu_i,\sum_i^n \sigma_i^2)$ 或者说 $\frac{1}{n}\sum_i^n x_i \sim N(\frac{\sum_i^n \mu_i}{n},\frac{\sum_i^n \sigma_i^2}{n})$ 。

4 大数定理和中心极限定理的理解

大数定理告诉我们：当抽样样本的量逐渐增大，其均值将依概率收敛到总体样本的均值。此时我们不必关心真实的分布究竟是怎样的。
中心极限定理告诉我们：当抽样样本的量逐渐增大，这些抽样样本的均值将会满足 $N(\frac{\sum_i^n \mu_i}{n},\frac{\sum_i^n \sigma_i^2}{n})$ 。显然，当 $n$ 逐渐变大，该正态分布的方差越小最终将塌缩为 Dirac delta function。

带图的直观体验：怎样理解和区分中心极限定理与大数定律？

>返回目录

二、点估计(point estimator)

事实上，对 $\theta$ 的计就是点估计问题，我们一般把其点估计值记为 $\hat \theta$ ，称为点估计值。

1 矩估计

矩估计法：用一阶样本的原点矩来估计总体的期望，而用二阶样本的中心矩来估计总体的方差。

由Khintchine大数定理可知，若样本总体的数学期望有限，则样本均值依概率收敛于其数学期望。因此在估计时可以使用样本的矩来作为总体矩的估计量。
我们使用矩估计来估计时，有：
$\begin{cases} \mu_1(\theta_1,\theta_2,\cdots,\theta_k) &= \frac{1}{n}\sum_{i=1}^{n}X_i \\ \mu_2(\theta_1,\theta_2,\cdots,\theta_k) &= \frac{1}{n}\sum_{i=1}^{n}X_i^2 \\ & \vdots\\ \mu_k(\theta_1,\theta_2,\cdots,\theta_k) &= \frac{1}{n}\sum_{i=1}^{n}X_i^k \end{cases}$

原点矩：对于自然数 $k$ 和 $\forall a \in \R$ ，随机变量 $x$ 的期望值 $\mathbb E[(x-a)^k]$ 叫做随机变量 $x$ 对 $a$ 的 $k$ 阶矩(若 $a=0$ 则称为 $k$ 阶原点矩)。当 $a=0,k=1$ 时即为 $x$ 的数学期望。

中心矩：若对于随机变量 $x$ 存在 $\mathbb E[x-\mathbb E[x]]^k$ ，则称其为 $x$ 的 $k$ 阶中心矩。

示例：
对于均匀分布 $x~U(a,b)$ ，欲对 $a,b$ 进行估计，已知均匀分布的期望为 $\mathbb E[x]=\frac{a+b}{2}$ ，方差 $Var(x)=\frac{(b-a)^2}{12}$ ，则 $\mathbb E[x^2]=Var(x)+\mathbb E[x]^2$ ，利用矩估计则有：
$\begin{cases} \mathbb E[x]&=\frac{a+b}{2}=\frac{1}{n}\sum_{i=1}^{n}X_i\\ \mathbb E[x^2]&=\frac{(b-a)^2}{12}+(\frac{a+b}{2})^2=\frac{1}{n}\sum_{i=1}^{n}X_i^2 \end{cases}$
解得：
$\begin{cases} \mu_x &= \frac{1}{n}\sum_{i=1}^{n}X_i\\ \hat a &= \mu_x - \sqrt{\frac{3}{n}\sum_{i=1}^n(x_i-\mu_x)^2}\\ \hat b &= \mu_x + \sqrt{\frac{3}{n}\sum_{i=1}^n(x_i-\mu_x)^2} \end{cases}$

2 最大似然估计(maximum Likelihood)

最大似然估计的参考：[数理知识]贝叶斯公式和最大似然估计笔记

示例：对于伯努利分布(即重复次数为1的二项分布) $x \sim B(1,p)$ ，欲对 $p$ 进行估计：

\begin{aligned} L(p)&=\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}\\ &=p^{\sum_{i=1}^nx_i} (1-p)^{n-\sum_{i=1}^nx_i}\\ \end{aligned}

取自然对数：

\begin{aligned} \ln L(p)&=\prod_{i=1}^{n}p^{x_i}(1-p)^{1-x_i}\\ &=\left(\sum_{i=1}^nx_i \right)\ln p + \left(n-\sum_{i=1}^n x_i \right) \ln \left(1-p \right) \end{aligned}

令 $\frac{\partial \ln L(p)}{\partial p}=0$ 解得：

\hat p = \frac{1}{n}\sum_{i=1}^{n}x_i

>返回目录

三、区间估计(interval estimate)

在点估计的基础上，根据样本统计量的抽样分布可以对样本统计量与总体样本的真实参数的接近程度求出一个概率度量，在此概率下给出总体参数估计的一个可信的区间范围。与区间估计常常一同出现的，还有置信区间的概念。

对于区别点估计和区间估计，有个很通俗的解释：

我对待定参数只估计一个值（点估计），只笃定了这个值是最精确的；

我给出待定参数的一个估计范围（区间估计），猜测这个区间内至少有一个值使得待定参数最接近于真实值；

对于这个区间，给出一个概率（置信度）来说明这个区间内有多大的把握存在至少有一个值使得待定参数最接近于真实值；给出置信度的区间估计就是置信区间。

显然，区间估计的精确度更高，但其“成本”也提升了，即获得精确值所需要进行尝试的次数变多。

置信区间(confidence interval)

补充理解：如何理解 95% 置信区间？- 知乎

置信区间 设总体样本集 $X$ 的分布函数 $F(x;\theta)$ 已知，先准备对 $\theta$ 进行估计，如果对 $\forall ~ 0<a<1$ 可以得知子样本集 $X' \in X$ 可以得到待定参数的下界（置信下限）与下界（置信上限） $\bar \theta,\underline \theta$ ，使得：

P(\underline \theta(X'))<\theta<P(\bar \theta(X'))=1-a

则称随即区间 $(\bar \theta,\underline \theta)$ 为参数 $\theta$ 以 $1-a$ 为置信水平（或置信度）的置信区间，或称双侧置信区间。

例题：
(脱敏数据裁剪于我们的一次爬虫实验) 已知某大学某组织的学生在总计3613场的某游戏对局中，每局时间服从正态分布 $N(\mu, 25.6^2)$ 。现从中抽取100场的数据，根据矩估计求得点估计 $\hat \mu=\frac{1}{100} \sum_{i=1}^{100}x_i=43.2$ (分钟)，给定95%置信区间，试求得其平均游戏时长(分钟)的范围。

解：根据大数定律所得到的中心极限定理，可以得知100场游戏的抽样集点估计均值 $\hat \mu$ 的分布满足 $\hat \mu\sim N(\mu, \frac{25.6^2}{100})$ 。
令 $a=0.05$ ，查标准正态分布( $\frac{x-\mu}{\sigma}\sim N(0,1)$ )表可知 $z_{\frac{a}{2}}=1.96$ ，即：
$\begin{aligned} P(-z_{\frac{0.05}{2}}<\frac{\hat \mu - \mu}{\frac{\sigma}{ \sqrt n}}<z_{\frac{0.05}{2}})&=1-0.05=0.95 \\ -1.96<\frac{\hat \mu - \mu}{\frac{\sigma}{ \sqrt n}}&<1.96\end{aligned}$
∴在置信度为95%的置信区间中，有：
$\hat \mu - 1.96 \frac{\sigma}{\sqrt n}< \mu <\hat \mu + 1.96 \frac{\sigma}{\sqrt n}$
代入 $\hat \mu =43.2$ 、 $n=100$ 、 $\sigma = 25.6$ 得：
$38.1824< \mu < 48.2176$
也就是说，我们有95%的把握认为，总计3613场的游戏平均每局时间落在这个范围内（实际上的真实值为40.2分钟），在区间估计的情况下，我们修正点估计值 $\hat \mu$ ，用区间估计 $(43.2 \pm 1.96 \frac{25.6}{\sqrt 100})\vert_{0.95}$ 来替代对 $\mu$ 的估计。

>返回目录

四、估计的评价标准

① 无偏性(unbias)

估计的偏差被定义为：

bias(\hat \theta)=\mathbb E(\hat \theta)-\theta

其中 $\theta$ 为真实值， $\mathbb E$ 是数学期望。

以伯努利分布 $P(x=k)=p^k(1-p)^{(1-k)}$ 为例，我们给出参数估计 $\hat p=\frac{1}{n}\sum_{i=1}^{n}x_i$ ，则其偏差为：

\begin{aligned} bias(\hat p)&=\mathbb E[\frac{1}{n}\sum_{i=1}^{n}x_i]-p\\ &=\frac{1}{n}\sum_{i=1}^{n}\mathbb E[x_i]-p\\ &=p-p=0 \end{aligned}

Tip：伯努利分布的期望是 $p$ ，参见：离散型概率分布或范畴分布(categorical distribution)

若 $bias(\hat \theta)=0$ ，我们称其为无偏(unbiased)的或无偏估计。当其为无偏估计时，则意味着我们对 $n$ 个分布值 $x_i$ 所得到的参数估计值的均值(期望)与真实值相等。

无偏性的意义在于，在多次重复下，估计值产生的偏差虽会在真实值周围波动，但在大范围实验中它仍旧最接近真实值。
若某个估计值当且仅当样本量趋近于无穷时才具有无偏性，我们称其为渐进无偏(asymptotically unbiased)。

② 有效性

对于一个参数来说，其可能具有多个无偏估计，因此我们需要有更进一步的衡量标准。

如果一种估计的方差比另一种估计的方差小，则称方差较小的估计值更有效。

从上文的例题中，我们不难得知参数估计 $\hat p=\frac{1}{n}\sum_{i=1}^{n}x_i$ 的方差为： $\frac{p}{n}(1-p)$ 。

③ 一致性(相合性)

无偏性和有效性在统计意义上给出了估计值地性能，但其并不能保证保证每一次具体估计时的性能，因此我们引入了参数估计的一致性。给定任意正实数 $\varepsilon$ 都有：

\lim_{n \rightarrow \infin}P(\vert \hat \theta - \theta \vert>\varepsilon)=0

或者：

\lim_{n \rightarrow \infin}\hat \theta = \theta

一致性保证了当样本数量非常大时，每一次的估计量总能在概率意义上任意地接近真实值；
一致性保证了估计量的偏差会随着样本量的增多而减少；
要注意的是，渐进无偏并不等于一致性。

>返回目录

查看评论

1. Preliminaries
2. 参数估计问题