# 统计问题基本定义

这是参数估计的背景

总体:研究对象全体,如某一批生产的所有灯泡

个体:组成总体的基本单位,如单个灯泡

随机变量:研究的个体的某项 or 某几项指标,如灯泡的寿命

样本:从总体中抽选出一部分,研究反应总体情况

总体参数:已知总体的分布函数类型,且分布函数依赖于有限个参数。我们称决定总体分布的参数为总体参数。如在统计物理中,我们认为某区域的粒子数XX 服从泊松分布P(λ)P(\lambda),其中λ\lambda 即为总体参数

分布族:我们将总体参数所属的范围成为参数空间,记为Θ\Theta,则相应的总体分布范围{Pθ:θΘ}\{P_\theta: \theta\isin\Theta\} 成为总体分布族,也称为参数分布族。常见的分布族有泊松分布(λ>0\lambda>0),正态分布(μR,σ2>0\mu\isin R, \sigma^2>0),0-1 分布 (0<p<10<p<1) 等

简单样本:指从总体中随机抽取样本,且每个个体被抽中的概率是相同的

统计量:设X1,X2,,XnX_1, X_2, \dots, X_n 为总体 X 的简单样本,若对样本的函数T(X1,X2,,Xn)T(X_1, X_2,\dots, X_n) 不包含任何位置参数,则称此函数为统计量

# 无偏估计 & 可估参数

参数估计,首要问题是估的准不准

  • 无偏估计

对于统计模型{Pθ,θΘ}\{P_\theta, \theta\isin \Theta\}q(θ)q(\theta) 是未知参数,T(X)T(X) 是统计量。如果对所有θΘ\theta\isin\Theta,都有

E(T(X))=q(θ)E(T(X))=q(\theta)

则称T(X)T(X)q(θ)q(\theta) 的无偏估计

  • 可估参数

若参数q(θ)q(\theta) 的无偏估计存在,则q(θ)q(\theta) 是可估的,是可估参数

q(θ)q(\theta) 的所有无偏估计组成的类UqU_q 则定义为:

Uq={T(x):Eθ(T(x))=q(θ),Varθ(T(x))<,θΘ }U_q=\{T(x):E_\theta(T(x))=q(\theta),\,Var_\theta(T(x))<\infty,\,\theta\isin \Theta\ \}

Tips:找无偏估计时,我们一般用 k 阶原点矩与 k 阶中心矩来凑

# 统计量性质

参数估计希望:选的参数包含的信息尽量少,没那些杂七杂八的东西,但要包含所有有用信息

独立同分布的X1,X2,,XnX_1, X_2, \dots, X_n 为总体XX 的样本,总体分布为{Pθ:θΘ}\{P_\theta: \theta\isin\Theta\}

# 性质定义

  1. 充分性

T(X)=T,P(XT)  does  not  depend  on  θT(X)=T,\quad P(X|T)\;does\;not\;depend\;on\;\theta

最小充分统计量:考虑对{B(1,θ),  θ(0,1)}\{B(1, \theta),\;\theta \isin(0,1)\} 做估计,那么i=1nxi\sum_{i=1}^{n} x_i(i=1n1xi,  xn)(\sum_{i=1}^{n-1} x_i,\;x_{n})(x1,x2,,xn)(x_1,x_2,\dots,x_{n}) 都是充分统计量,保留了与参数θ\theta 有关的信息 “1” 的个数

但从剔除无关的信息的角度看,也有高下:i=1nxi\sum_{i=1}^{n} x_i 最强,再没有比i=1nxi\sum_{i=1}^{n} x_i 更能的压缩数据的充分统计量了,那么其就被称为 “最小充分统计量”,其维度尽可能最低

V(X)=V,P(V)  does  not  depend  on  θV(X)=V,\quad P(V)\;does\;not\;depend\;on\;\theta

  1. 零的无偏估计

U(X)=U,E(U)=0U(X)=U,\quad E(U)=0

  1. 完全性

S(X)=S,E(g(S))=0    g(S)=0S(X)=S,\\E(g(S))=0\implies g(S)=0

# 具体解释

  1. T 如果充分且完全,那么

E(g(T))=θ    only  exist  one  g(T)E(g(T))=\theta\implies only\;exist\;one\;g(T)

  1. 试想WWθ\theta 的无偏统计量,且与所有的UU (零的无偏估计量) 无关。那么考虑一个非WWθ\theta 的无偏统计量WW'

E(W)=θ,  E(W)=θ  W=W+(WW),  VarθW=VarθW+Varθ(WW)  VarθWVarθWE(W)=\theta,\;E(W')=\theta\\ \because\;W'=W+(W'-W),\\ \therefore\;Var_\theta W'=Var_\theta W+Var_\theta (W'-W)\\ \therefore\;Var_\theta W'\ge Var_\theta W

可以看到,在无偏估计类中,若WW 含有UU,噪声UU 的部分会使方差增大。

那么我们就会希望,WW 包含的所有信息没有噪声UU

WW 包含了噪声,那么一定可以用gg 加工处理,得到一种情况:

屏蔽期望等于θ\theta 的部分,留下了噪声UU 的信息(即基于噪声UU 的函数)

此时gg 的数学期望为 0,但是gg 不直接等于数值 0

这就是完全性的由来

  1. V 本身不包含关于θ\theta 的信息,但是加上其他数据,可以确定θ\theta 的精度,增强改善我们的判断
  2. 最小充分统计量依然可能含有噪声,不完全
  3. 如果存在最小充分统计量,那么任何充分完全统计量也是最小充分统计量

# UMVUE

用于参数估计的理想随机变量

在所有UqU_q 中方差最小的那个T(x)T(x),就是q(θ)q(\theta) 的 UMVUE。

对所有的θΘ\theta\isin\Theta,都有:

S(x)Uq,Varθ(T(x))Varθ(S(x))\forall S(x)\isin U_q,\quad Var_\theta(T(x))\le Var_\theta(S(x))

则称T(x)T(x)q(θ)q(\theta) 的一致最小方差无偏估计,简称 UMVUE

# Theorem 1 (Rao-Blackwell 定理)

其实就是基于 S 充分统计量,φ 无偏估计,朝着一个方差最小的方向航行。每次由数学期望构造出的 T 都是无偏、充分的,而且方差比上一个无偏估计更小。

# Theorem 2 (Lehmann-Scheffe 定理)

基于 R-B 定理,如果 S 不光充分且完全,那么由数学期望构造出的 T 无偏、充分且完全,其就是唯一的 UMVUE

# 寻找方法

# 充分统计量

我们使用因子分解定理:

一个关于参数θ\theta 的联合分布函数p(x;θ)p(x;\theta),都可以被分解为两个部分的乘积:

p(x;θ)=h(x)×g(T(x),θ)p(x;\theta)=h(x)\times g(T(x), \theta)

  • θ\theta 无关的h(x)h(x),是只含随机变量的函数;
  • 无法被分解的,关于参数θ\theta 和随机变量xx 的函数g(T(x),θ)g(T(x), \theta),其中T(x)T(x) 是仅关于随机变量xx 的函数

那么T(x)T(x) 是参数θ\theta充分统计量

# 充分完全统计量

对联合分布概率密度函数p(x;θ)p(x;\theta),进行 chwt 分解:

p(x,θ)=c(θ)h(x)exp{w(θ)T(x)}p(x,\theta)=c(\theta)h(x)\exp\left\{w(\theta)T(x)\right\}

w(θ)w(\theta) 的值域有内点,则TT 为完全充分统计量。

# UMVUE

根据 L-S 定理,T(x)=E[ϕ(x)S(x)]T(x)=E\Big[\phi(x)|S(x)\Big],若ϕ(x)\phi(x) 为无偏估计,S(x)S(x) 为完全充分统计量,则TT 为唯一的 UMVUE

# 对比思考:UMVUE 与 MSE

无论θ\theta 的取值,为什么能存在 UMVUE,但是没有统计量能一直满足 MSE 最小?

这句话有点绕,翻译精细点 ——

UqU_q 是总体参数θ\theta 的无偏估计类,GG 是总体参数θ\theta 的全体估计类

θΘ,T,  Var(T)Var(S),  SUqT,  R(θ,T)R(θ,S),  SG\forall\theta\isin\Theta,\\ \exists T,\;Var(T)\le Var(S),\;S\isin U_q\\ \nexists T,\;R(\theta,T)\le R(\theta,S),\;S\isin G

其中:

MSEθ(T)=R(θ,T)=E[(Tq(θ))2]=Varθ(T)+b2(θ,T)\begin{align*} MSE_\theta(T)=&R(\theta,T)\\ =&E\Big[(T-q(\theta))^2\Big]\\ =&Var_\theta(T)+b^2(\theta,T) \end{align*}

其实原因就是因为对 S 没有限制,做不到。倘若S=θ0S=\theta_0R(θ,S)=0R(\theta,S)=0,那你 T 还玩毛的误差最小,人家都变成 0 了,T 这个时候也只能从随机下沉取到数值θ0\theta_0。好,这个情况解决了,那其他情况呢?θ0\theta_0 可以是参数空间中的任意一个值,你的 T 又不能分身,玩毛线。

博主说的形象一点:

  • UMVUE 类似一个公平的游泳比赛,θ\theta 的每个取值就是一个泳道,比如 1 号蛙泳道,2 号自由泳道,3 号狗刨道…… 由于限制了无偏估计,所有参赛选手都不能瘸腿偏科,θ\theta 取哪个道你就得在哪个道里游,只是每个选手游泳时左右乱晃围绕泳道中线摇摆。我们要找到一个选手,他的摇摆幅度最小。
  • 最小 MSE 就是无限制游泳比赛。由于没有无偏估计的限制,θ\theta 都取蛙泳了,有的选手依然在狗刨道里笔直的狗刨…… 你想选一个样样最优的统计量 T?狗刨选手说:“ok,我就会狗刨。θ\theta 取蛙泳了那我就输呗,我的 bias 大到姥姥家我也不在意。反正等到θ\theta 取到狗刨值θ0\theta_0 时,bias 为 0,游泳笔直无波动,Vars 也为 0,你所谓的最佳选手 T 能比我好?”
此文章已被阅读次数:正在加载...更新于

谢谢你请我喝[茶]!(๑OvO๑)♪

柳小寒寒子 微信支付

微信支付