# 基础概念

统计学中有两个主要学派:

  • 频率学派:根据样本信息,对总体分布进行推断,这里用到两种信息:总体信息样本信息
  • 贝叶斯 (Bayes) 学派:认为任一未知量都是随机变量。除了上述两种信息以外,统计推断还应该使用第三种信息:先验信息

总体信息:总体分布或总体所属分布族的信息
样本信息:从总体抽取的样本给我们提供的信息
先验信息:抽样之前,既有的关于统计问题的信息

贝叶斯学派认为,样本x=(x1,x2,,xn)x = (x_1, x_2, \cdots, x_n) 的产生分为两步:

  1. 从先验分布π(θ)\pi(\theta) 生成一个总体参数θ\theta^\prime.
  2. 从总体分布产生样本xx,其中p(xθ)p(x|\theta) 概率被称作似然函数

L(θ)=p(xθ)=i=1np(xiθ)L(\theta)=p(x|\theta)=\prod_{i=1}^np(x_i|\theta)

由此得到样本与参数的联合分布:

h(x,θ)=p(xθ)π(θ)h(x,\theta)=p(x|\theta)\pi(\theta)

使用贝叶斯公式,我们可以求出后验分布π(θx)\pi(\theta|x),更新我们的知识(先验分布):

π(θx)=h(x,θ)m(x)=p(xθ)π(θ)θp(xθ)π(θ)dθ\pi(\theta|x)=\dfrac{h(x,\theta)}{m(x)}=\dfrac{p(x|\theta)\pi(\theta)}{\int_\theta p(x|\theta)\pi(\theta)d\theta}

其中边缘分布m(x)=θp(xθ)π(θ)dθm(x) = \int_\theta p(x|\theta)\pi(\theta)d\theta,不包含θ\theta 的任何信息.

如果随机变量是离散的,则:

π(θix)=p(xθi)π(θi)jp(xθj)π(θj),i=1,2,\pi(\theta_i|x)=\frac{p(x|\theta_i)\pi(\theta_i)}{\sum_jp\left(x|\theta_j\right)\pi(\theta_j)},i=1,2,\cdots

贝叶斯假设:在不了解先验信息的时候,贝叶斯本人建议采用同等无职的原则,让θ\theta 遵从0011 的均匀分布:

π(θ)={1,0<θ<10,others\pi(\theta)=\begin{cases}1,&0<\theta<1\\0,&\text{others}&&\end{cases}

# 贝叶斯估计

对参数θ\theta 做估计,怎么估计的最好呢?标准是啥?
贝叶斯估计的思路是基于后验分布,设置一个损失函数λ(θ^,θ)\lambda(\widehat{\theta},\theta) 作为惩罚,含义为:用θ^\widehat{\theta} 作为θ\theta 的估计量时的损失
那最优的估计,就是能使总风险的期望最小 ——

设样本取值空间为EdE^d,参数θ\theta 取值空间为Φ\Phi
定义样本xx 下的条件风险为:

R(θ^x)=Φλ(θ^,θ)p(θx)dθR(\widehat{\theta}|x)=\int_{\Phi}\lambda(\widehat{\theta},\theta) p(\theta|x)\boldsymbol{d}\theta

总期望风险为:

R=EdR(θ^x)p(x)dxR=\int_{E^d} R(\widehat{\theta}|x) p(x)dx

在有限样本集合D={x1,x2,...,xN}D=\{x_1,x_2,...,x_N\} 的情况下,求RR 最小等价于求R(θ^x)R(\widehat{\theta}|x) 最小;
如果使用平方损失函数,即λ(θ^,θ)=(θθ^)2\lambda(\widehat{\theta},\theta) = (\theta - \hat\theta)^2,则有θ\theta 的贝叶斯估计量θ\theta^*:

θ=E(θD)=Φθp(θD)dθ\theta^* = E(\theta|D) = \int_\Phi \theta p(\theta|D) d\theta

直觉上讲,平方误差损失函数惩罚了预测值与真实值之间的偏差,且这种惩罚随着偏差的增大而迅速增加(因为是二次项)。因此,选择后验期望作为估计值是一种 “平衡” 策略,它试图找到一个值,该值平均而言最接近于所有可能的真实参数值,从而最小化了整体来看的平均误差。

如果先验分布取均匀分布,即 “同样无知”,此时先验分布为常数,边缘分布与θ\theta 无关,此时后验分布直接正比于似然函数。此时贝叶斯方法没有了先验分布的信息,退化为频率学派的经典方法,比如最大化后验分布退化为 MLE

数据量增大时,数据本身提供的信号变强,似然函数的影响变大,最终的后验分布会更多地反映数据的特征,而不仅仅是先验。

此文章已被阅读次数:正在加载...更新于

谢谢你请我喝[茶]!(๑OvO๑)♪

柳小寒寒子 微信支付

微信支付