# 基础概念
统计学中有两个主要学派:
- 频率学派:根据样本信息,对总体分布进行推断,这里用到两种信息:总体信息和样本信息。
- 贝叶斯 (Bayes) 学派:认为任一未知量都是随机变量。除了上述两种信息以外,统计推断还应该使用第三种信息:先验信息
总体信息:总体分布或总体所属分布族的信息
样本信息:从总体抽取的样本给我们提供的信息
先验信息:抽样之前,既有的关于统计问题的信息
贝叶斯学派认为,样本x=(x1,x2,⋯,xn) 的产生分为两步:
- 从先验分布π(θ) 生成一个总体参数θ′.
- 从总体分布产生样本x,其中p(x∣θ) 概率被称作似然函数:
L(θ)=p(x∣θ)=i=1∏np(xi∣θ)
由此得到样本与参数的联合分布:
h(x,θ)=p(x∣θ)π(θ)
使用贝叶斯公式,我们可以求出后验分布π(θ∣x),更新我们的知识(先验分布):
π(θ∣x)=m(x)h(x,θ)=∫θp(x∣θ)π(θ)dθp(x∣θ)π(θ)
其中边缘分布m(x)=∫θp(x∣θ)π(θ)dθ,不包含θ 的任何信息.
如果随机变量是离散的,则:
π(θi∣x)=∑jp(x∣θj)π(θj)p(x∣θi)π(θi),i=1,2,⋯
贝叶斯假设:在不了解先验信息的时候,贝叶斯本人建议采用同等无职的原则,让θ 遵从0 到1 的均匀分布:
π(θ)={1,0,0<θ<1others
# 贝叶斯估计
对参数θ 做估计,怎么估计的最好呢?标准是啥?
贝叶斯估计的思路是基于后验分布,设置一个损失函数λ(θ,θ) 作为惩罚,含义为:用θ 作为θ 的估计量时的损失
那最优的估计,就是能使总风险的期望最小 ——
设样本取值空间为Ed,参数θ 取值空间为Φ
定义样本x 下的条件风险为:
R(θ∣x)=∫Φλ(θ,θ)p(θ∣x)dθ
则总期望风险为:
R=∫EdR(θ∣x)p(x)dx
在有限样本集合D={x1,x2,...,xN} 的情况下,求R 最小等价于求R(θ∣x) 最小;
如果使用平方损失函数,即λ(θ,θ)=(θ−θ^)2,则有θ 的贝叶斯估计量θ∗:
θ∗=E(θ∣D)=∫Φθp(θ∣D)dθ
直觉上讲,平方误差损失函数惩罚了预测值与真实值之间的偏差,且这种惩罚随着偏差的增大而迅速增加(因为是二次项)。因此,选择后验期望作为估计值是一种 “平衡” 策略,它试图找到一个值,该值平均而言最接近于所有可能的真实参数值,从而最小化了整体来看的平均误差。
如果先验分布取均匀分布,即 “同样无知”,此时先验分布为常数,边缘分布与θ 无关,此时后验分布直接正比于似然函数。此时贝叶斯方法没有了先验分布的信息,退化为频率学派的经典方法,比如最大化后验分布退化为 MLE
数据量增大时,数据本身提供的信号变强,似然函数的影响变大,最终的后验分布会更多地反映数据的特征,而不仅仅是先验。