数理知识:统计决策理论|贝叶斯公式和最大似然估计笔记

数理知识:统计决策理论|贝叶斯公式和最大似然估计笔记

九月 07, 2019
当前设备屏幕尺寸过小,推荐使用PC模式浏览。

最大似然估计学习笔记

贝叶斯定理及最大(极大)似然估计(maximumlikelihoodmaximum-likelihood)是机器学习的数理基础。


① 条件概率

定义1 若A、B是独立事件,即AB事件相互独立,则有:

P(AB)=P(A)P(B)P(AB)=P(A)P(B)

定义2 若A、B为事件且事件A为正概率,在事件A发生的条件下事件B发生的条件概率为:

P(BA)=P(AB)P(A)P(B|A)=\frac{P(AB)}{P(A)}

公式1 (乘法公式)设A1,A2....AnA_1,A_2....A_n为事件且均为正概率,则有

P(A1A2...An)=P(A1)P(A2A1)P(A3A1A2)...P(AnA1A2...An)P(A_1A_2...A_n)=P(A_1)P(A_2|A_1)P(A_3|A_1A_2)...P(A_n|A_1A_2...A_n)

公式2 (全概率公式)若B1,B2....BnB_1,B_2....B_n均为正概率事件且两两不相容,即BiBj=(i=;i,j=1,2,...n)B_iB_j=\emptyset(i =\not j;i,j=1,2,...n),又有i=1nBi=Ω\bigcup_{i=1}^{n} B_i=\Omega,其中Ω\Omega为样本空间,则称BnB_n为该样本空间中的划分。对于样本空间内的随机事件AA则有

P(A)=i=1nP(Bi)P(ABi)P(A)=\sum_{i=1}^{n}P(B_i)P(A|B_i)

公式3 (贝叶斯公式)设Ω\Omega为样本空间,AA为其中的随机事件,B1...BnB_1...B_n为该样本空间中的划分,P(A)>0,P(Bi)>0P(A)>0 ,P(B_i)>0,由全概率公式和条件概率的定义得:

P(BiA)=P(Bi)P(ABi)j=1nP(Bj)P(ABj)=P(ABi)P(A)P(B_i|A)=\frac{P(B_i)P(A|B_i)}{\sum_{j=1}^{n}P(B_j)P(A|B_j)}=\frac{P(AB_i)}{P(A)}


② 贝叶斯(Beyes)公式笔记

利用贝叶斯公式求解的步骤一般分为以下几步:

  1. 贝叶斯公式的核心在于找到问题的样本空间Ω\Omega
  2. 找到样本空间内的划分,计算各划分的概率P(Bi)P(B_i)
  3. 找到样本空间内的随机事件AA,并利用全概率公式计算P(A)P(A)
  4. 利用贝叶斯公式计算P(BiA)P(B_i|A)
例题: 某工厂有四个车间生产某种产品,产量分别占15%、20%、30%、35%,次品率分别为5%、4%、3%、2%,求若取出的是次品,其为第一车间生产的产品概率。
求解: 1.样本空间$\Omega$为四个车间生产的产品 2.该产品是某个车间生产的产品的事件为划分,分别记录为$B_1、B_2、B_3、B_4$。计算各划分的概率:

P(B1)=0.15,P(B2)=0.20,P(B3)=0.30,P(B4)=0.35P(B_1)=0.15, P(B_2)=0.20, P(B_3)=0.30, P(B_4)=0.35

3.某产品为次品为随机事件AA。根据和概率公式计算随机事件AA的概率:

P(A)=i=14P(Bi)P(ABi)=0.150.05+0.200.04+0.300.03+0.350.02=0.0315 \begin{aligned} P(A)&=\sum_{i=1}^{4}P(B_i)P(A|B_i) \\ &=0.15*0.05+0.20*0.04+0.30*0.03+0.35*0.02\\ &=0.0315 \end{aligned}

4.根据贝叶斯公式计算:

P(B1A)=P(B1)P(AB1)P(A)=0.150.050.0315=0.238 \begin{aligned} P(B_1|A)&=\frac{P(B_1)P(A|B_1)}{P(A)}\\ &=\frac{0.15*0.05}{0.0315}\\ &=0.238 \end{aligned}

一般的,针对朴素贝叶斯公式:

P(AB)=P(A)P(BA)P(B)P(A|B)=P(A)\frac{P(B|A)}{P(B)}

可以通过韦恩图来理解公式:

朴素贝叶斯

  • 当已知绿点落入AABB时,即已知发生AABB事件之后,要想知道同时发生另一个事件的概率(即落入ABA\cap B区域的概率)
  • AA的视角来看,若已发生BB事件,则同时发生AA事件的概率应为P(AB)P(A|B),也就是P(A)P(BA)P(B)P(A)*\frac{P(B|A)}{P(B)};反之亦然。
  • 在上述情况中,P(AB)P(A|B)称为后验概率P(A)P(A)称为先验概率P(BA)P(B|A)被称为类条件概率P(B)P(B)被称为知识
  • 后验概率一般较难通过统计获得,而先验概率则较为容易得到。例如上文例题中,统计某抽样[产品]产于某车间的概率远简单于统计某抽样[次品]产于某车间的概率。
  • 在已获得的知识的基础上,通过统计调查得到先验概率类条件概率,并计算得到后验概率,是一种确定性概率推理。
  • 事件B(绿点落入B区域)的发生提高了绿点落入ABA\cap B(或者说其超集AA)区域的概率,即先验概率P(A)P(A)(原本一个绿点落入区域AA的概率)乘以放大因子(类条件概率/知识)P(BA)P(B)\frac{P(B|A)}{P(B)}

先验概率和后验概率的一些理解

不妨把贝叶斯公式理解成:在已知某种“结果”发生的情况下,去推测哪一种“原因”导致了它的发生。

  1. 先验概率 从常识等现有知识,得到的“起因”的概率;
  2. 后验概率 知道“结果”之后反推“起因”的概率;
  3. 类条件概率 得到“结果”后,由某个类(原因)导致该结果的概率。
以"瓜熟蒂落"为例,当看到一个西瓜瓜蒂落下,有多大可能性得知该西瓜已经成熟。(因果关系为:西瓜成熟为起因,结果为西瓜蒂落)
A:西瓜成熟 B:西瓜蒂落 解: 1.要得到**后验概率**$P(A|B)$,可以简单通过统计学方法获知西瓜的成熟率即**先验概率**$P(A)$,也就是“起因”的发生概率,作为新获取的知识储备; 2.而结果的发生概率$P(B)$作为固有**知识**,因为某件事情发生后,它的一切都定下来了,根据观察实验即可获取其自然概率作为常识类的知识储备; 3.现在,通过统计调查**类条件概率**,即西瓜蒂落是由西瓜成熟导致的概率$P(B|A)$

P(AB)=P(A)P(BA)P(B)P(A|B)=P(A)*\frac{P(B|A)}{P(B)}


③ 最大似然估计

先导知识: [数理知识]机器学习入门: 概率论与信息论基础

最大似然估计常用于点估计中,我们把要顾及的值记为 θ\theta,它是一个确定但未知的量(待定量),我们对它的估计 θ^(x1,x2,,xn)\hat \theta(x_1,x_2,\cdots,x_n) 表示从已知的数据集(x1,x2,,xn)X(x_1,x_2,\cdots,x_n) \in X 得到对原待定参数值的推测。我们假设数据的分布满足独立同分布条件(i.i.d assumption)。

独立同分布条件:每个数据集中的样本都是相互独立的,且各个数据集中的样本满足同一个概率分布。

假设给定数据集(样本集)XX、待定参数为 θ\theta,在以概率密度 p(xθ)p(x|\theta) 时获得此样本集 XX的概率即出现 XX 中的各个样本的联合概率为:

l(θ)=p(Xθ)=px1,x2,,xnθ)=p(x1θ)p(x2θ)p(xnθ)=i=1np(xiθ)\begin{aligned} l(\theta)&=p(X|\theta)\\ &=px_1,x_2,\cdots,x_n|\theta)\\ &=p(x_1|\theta)p(x_2|\theta)\cdots p(x_n|\theta)\\ &=\prod_{i=1}^np(x_i|\theta) \end{aligned}

似然函数 记总体样本X的分布形式p(x;θ)p(x;\theta)为已知,其中θΩ\theta\in\Omega是未知参数,Ω\Omegaθ\theta可能的取值范围,X1...XnX_1...X_n是来自总体的一个样本,x1...xnx_1...x_n是样本

X1...XnX_1...X_n的一组样本值,则似然函数的定义为:

L(θ)=i=1np(xi;θ)L(\theta)=\prod_{i=1}^{n}p(x_i;\theta)

使得似然函数取得最大值的一组θ^(x1,....xn)\hat{\theta}(x_1,....x_n)称为最大似然估计θ\theta最大似然估计值;相对的θ^(X1,....Xn)\hat{\theta}(X_1,....X_n)称为最大似然估计量

求取最大似然概率

容易注意到,L(θ)L(\theta)lnL(θ)\ln{L(\theta)}在同一θ\theta处取得最大值,所以求取最大似然估计的步骤为:

  1. 写出似然函数:L(θ)=i=1np(xi;θ)L(\theta)=\prod_{i=1}^{n}p(x_i;\theta)
  2. 取自然对数:lnL(θ)=lni=1np(xi;θ)\ln{L(\theta)}=\ln{\prod_{i=1}^{n}p(x_i;\theta)}
  3. lnL(θ)θi=0(i=1,2..n)\frac{\partial\ln{L(\theta)}}{\partial\theta_i}=0(i=1,2..n),求解即可得到θi^(x1,....xn)\hat{\theta_i}(x_1,....x_n)

似然和概率 (非严格定义)似然和概率并不是一个东西,因此不能称其为似然概率。似然函数是指,在某一假设下,已知数据发生的可能性,来评价哪一个假设更接近真实"似然概率"θ\theta的值。例如,抛三次硬币,结果为"正正反",那么硬币正面向上的"似然概率"为23\frac{2}{3};随着数据的增多(实验结果的增多),该值将趋近于0.5。