# 统计问题基本定义
总体:研究对象全体,如某一批生产的所有灯泡
个体:组成总体的基本单位,如单个灯泡
随机变量:研究的个体的某项 or 某几项指标,如灯泡的寿命
样本:从总体中抽选出一部分,研究反应总体情况
总体参数:已知总体的分布函数类型,且分布函数依赖于有限个参数。我们称决定总体分布的参数为总体参数。如在统计物理中,我们认为某区域的粒子数X 服从泊松分布P(λ),其中λ 即为总体参数
分布族:我们将总体参数所属的范围成为参数空间,记为Θ,则相应的总体分布范围{Pθ:θ∈Θ} 成为总体分布族,也称为参数分布族。常见的分布族有泊松分布(λ>0),正态分布(μ∈R,σ2>0),0-1 分布 (0<p<1) 等
简单样本:指从总体中随机抽取样本,且每个个体被抽中的概率是相同的
统计量:设X1,X2,…,Xn 为总体 X 的简单样本,若对样本的函数T(X1,X2,…,Xn) 不包含任何位置参数,则称此函数为统计量
# 无偏估计 & 可估参数
对于统计模型{Pθ,θ∈Θ},q(θ) 是未知参数,T(X) 是统计量。如果对所有θ∈Θ,都有
E(T(X))=q(θ)
则称T(X) 为q(θ) 的无偏估计
若参数q(θ) 的无偏估计存在,则q(θ) 是可估的,是可估参数
q(θ) 的所有无偏估计组成的类Uq 则定义为:
Uq={T(x):Eθ(T(x))=q(θ),Varθ(T(x))<∞,θ∈Θ }
Tips:找无偏估计时,我们一般用 k 阶原点矩与 k 阶中心矩来凑
# 统计量性质
参数估计希望:选的参数包含的信息尽量少,没那些杂七杂八的东西,但要包含所有有用信息
独立同分布的X1,X2,…,Xn 为总体X 的样本,总体分布为{Pθ:θ∈Θ}
# 性质定义
- 充分性
T(X)=T,P(X∣T)doesnotdependonθ
最小充分统计量:考虑对{B(1,θ),θ∈(0,1)} 做估计,那么∑i=1nxi,(∑i=1n−1xi,xn),(x1,x2,…,xn) 都是充分统计量,保留了与参数θ 有关的信息 “1” 的个数
但从剔除无关的信息的角度看,也有高下:∑i=1nxi 最强,再没有比∑i=1nxi 更能的压缩数据的充分统计量了,那么其就被称为 “最小充分统计量”,其维度尽可能最低
V(X)=V,P(V)doesnotdependonθ
- 零的无偏估计
U(X)=U,E(U)=0
- 完全性
S(X)=S,E(g(S))=0⟹g(S)=0
# 具体解释
- T 如果充分且完全,那么
E(g(T))=θ⟹onlyexistoneg(T)
- 试想W 是θ 的无偏统计量,且与所有的U
(零的无偏估计量)
无关。那么考虑一个非W 的θ 的无偏统计量W′:
E(W)=θ,E(W′)=θ∵W′=W+(W′−W),∴VarθW′=VarθW+Varθ(W′−W)∴VarθW′≥VarθW
可以看到,在无偏估计类中,若W 含有U,噪声U 的部分会使方差增大。
那么我们就会希望,W 包含的所有信息没有噪声U。
若W 包含了噪声,那么一定可以用g 加工处理,得到一种情况:
屏蔽期望等于θ 的部分,留下了噪声U 的信息(即基于噪声U 的函数)
此时g 的数学期望为 0,但是g 不直接等于数值 0
这就是完全性的由来
- V 本身不包含关于θ 的信息,但是加上其他数据,可以确定θ 的精度,增强改善我们的判断
- 最小充分统计量依然可能含有噪声,不完全
- 如果存在最小充分统计量,那么任何充分完全统计量也是最小充分统计量
# UMVUE
在所有Uq 中方差最小的那个T(x),就是q(θ) 的 UMVUE。
对所有的θ∈Θ,都有:
∀S(x)∈Uq,Varθ(T(x))≤Varθ(S(x))
则称T(x) 为q(θ) 的一致最小方差无偏估计,简称 UMVUE
# Theorem 1 (Rao-Blackwell 定理)
其实就是基于 S 充分统计量,φ 无偏估计,朝着一个方差最小的方向航行。每次由数学期望构造出的 T 都是无偏、充分的,而且方差比上一个无偏估计更小。
# Theorem 2 (Lehmann-Scheffe 定理)
基于 R-B 定理,如果 S 不光充分且完全,那么由数学期望构造出的 T 无偏、充分且完全,其就是唯一的 UMVUE
# 寻找方法
# 充分统计量
我们使用因子分解定理:
一个关于参数θ 的联合分布函数p(x;θ),都可以被分解为两个部分的乘积:
p(x;θ)=h(x)×g(T(x),θ)
- 与θ 无关的h(x),是只含随机变量的函数;
- 无法被分解的,关于参数θ 和随机变量x 的函数g(T(x),θ),其中T(x) 是仅关于随机变量x 的函数
那么T(x) 是参数θ 的充分统计量
# 充分完全统计量
对联合分布概率密度函数p(x;θ),进行 chwt 分解:
p(x,θ)=c(θ)h(x)exp{w(θ)T(x)}
若w(θ) 的值域有内点,则T 为完全充分统计量。
# UMVUE
根据 L-S 定理,T(x)=E[ϕ(x)∣S(x)],若ϕ(x) 为无偏估计,S(x) 为完全充分统计量,则T 为唯一的 UMVUE
# 对比思考:UMVUE 与 MSE
无论θ 的取值,为什么能存在 UMVUE,但是没有统计量能一直满足 MSE 最小?
这句话有点绕,翻译精细点 ——
Uq 是总体参数θ 的无偏估计类,G 是总体参数θ 的全体估计类
∀θ∈Θ,∃T,Var(T)≤Var(S),S∈Uq∄T,R(θ,T)≤R(θ,S),S∈G
其中:
MSEθ(T)===R(θ,T)E[(T−q(θ))2]Varθ(T)+b2(θ,T)
其实原因就是因为对 S 没有限制,做不到。倘若S=θ0,R(θ,S)=0,那你 T 还玩毛的误差最小,人家都变成 0 了,T 这个时候也只能从随机下沉取到数值θ0。好,这个情况解决了,那其他情况呢?θ0 可以是参数空间中的任意一个值,你的 T 又不能分身,玩毛线。
博主说的形象一点:
- UMVUE 类似一个公平的游泳比赛,θ 的每个取值就是一个泳道,比如 1 号蛙泳道,2 号自由泳道,3 号狗刨道…… 由于限制了无偏估计,所有参赛选手都不能瘸腿偏科,θ 取哪个道你就得在哪个道里游,只是每个选手游泳时左右乱晃围绕泳道中线摇摆。我们要找到一个选手,他的摇摆幅度最小。
- 最小 MSE 就是无限制游泳比赛。由于没有无偏估计的限制,θ 都取蛙泳了,有的选手依然在狗刨道里笔直的狗刨…… 你想选一个样样最优的统计量 T?狗刨选手说:“ok,我就会狗刨。θ 取蛙泳了那我就输呗,我的 bias 大到姥姥家我也不在意。反正等到θ 取到狗刨值θ0 时,bias 为 0,游泳笔直无波动,Vars 也为 0,你所谓的最佳选手 T 能比我好?”