文章

概率导论笔记

概率导论笔记

概率导论 Introduction to Probability, 2E, Bertsekas

样本空间与概率

1.   概率模型

sample space 所有可能结果的集合 $\Omega$
probability law 为每个结果确定一个概率 $P(A)$ , 每个结果需要 mutually exclusive

2.   概率公理 axioms

  1. 非负性 $P(A)≥0$
  2. 可加性 $P(⋃_iA_i )=∑P(A_i)$
  3. 归一化 $P(Ω)=1$

3.   条件概率 conditional probability

满足 B 事件时发生 A 事件的概率: $P(A│B)=P(A∩B)/P(B)$. 用韦恩图理解

乘法规则

\[\begin{align*} P(∩_{i=1}^n A_i )=&P(A_1) \frac{P(A_2∩A_1 )}{P(A_1 )}\frac{P(A_3∩A_2∩A_1 )}{P(A_2∩A_1 )} …\\ =&P(A_1 )P(A_2│A_1 )P(A_3│A_1∩A_2 )…P(A_n│⋂_{i=1}^{n-1}A_i )\\ =&P(A_1 ) ∏_{i=2}^n P(A_i│⋂_{j=1}^{i-1}A_j ) \end{align*}\]

4.   全概率定理 Total Probability Theorem

若 $A_i$ 是样本空间的分割, $P(B)=\sum P(A_i\cap B)=\sum{P(A_i)P(B|A_i)}$
贝叶斯准则 Bayes’ Rule
若 $A_i$ 是样本空间的分割, 则

\[P(A_i|B)=\frac{P(A_i)P(B|A_i)}{P(B)}=\frac{P(A_i)P(B|A_i)}{\sum_j P(A_j)P(B|A_j)}\]

在因果推理 inference 中, 若 $A_i$ 为因, $B$ 为果时, $P(A_i)$ 为先验概率 prior probability; $P(A_i\vert B)$ 表示 结果 $B$ 是由原因 $A_i$ 造成的概率, 为后验概率 posterior probability

5.   独立性 independence

\[P(A\cap B)=P(A)P(B)\]

等价于

\[P(A|B)=P(A)\]

有 $n$ 个事件 $A_i$, 若对这些事件的任意子集 $S$ 都有 $P(\bigcap_{i\in S} A_i)=\prod_{i\in S} P(A_i)$, 则称 $A_i$ 为相互独立事件.

条件独立 conditional independence
在给定 $C$ 事件发生的条件下独立 $P(A\cap B\vert C)=P(A\vert C)P(B\vert C)$

\[P(A\cap B|C)=\frac{P(A\cap B\cap C)}{P(C)}=\frac{P(C)P(B|C)P(A|B\cap C)}{P(C)}=P(B|C)P(A|B\cap C)\]

两式得到 $P(A\vert C)=P(A\vert B\cap C)$

离散随机变量

1. 概率质量函数 probability mass function

\[p_X(x)=P(\{X=x\})\]
  1. 伯努利随机变量 Bernoulli random variable, 对于事件 $X$, $p_X(1)=p$, $p_X(0)=1-p$
    $E[X]=p$, $E[X^2]=p$, $\operatorname{var}(X)=p(1-p)$
  2. 二项 Binominal 随机变量 $p_X(k)=C_n^kp^k(1-p)^{n-k}$, $E[X]=np$, $\operatorname{var}(X)=np(1-p)$
    $\lim_{n\rightarrow\infty}E=np=\lambda$ 分布趋于泊松分布
    二项分布相当于 $n$ 次独立的伯努利分布的叠加
  3. 几何 Geometric 随机变量 $p_X(k)=(1-p)^{k-1}p$, $E[X]=\frac{1}{p}$, $\operatorname{var}(X)=\frac{1-p}{p^2}$
  4. 泊松 Poisson 随机变量 $p_X(k)=e^{-\lambda}\frac{\lambda^k}{k!}$
    $E[X]=\lambda$, $\operatorname{var}(X)=\lambda$

2. 期望 expectation

\[E[X]=\sum_x xp_X(x)\]

随机变量 $X$ 的 n 阶矩 nth moment 为 $E[X^n]=\sum_x x^np_X(x)$
期望规则 expected value rule $E[g(X)]=\sum_x g(x)p_X(x)$
方差 variance $\operatorname{var}(X)=E[(X-E[X])^2]=\sum_x (x-E[X])^2p_X(x)=E[X^2]-E[X]^2$
标准差 standard deviation $\sigma_X=\sqrt{\operatorname{var}(X)}$
全期望定理 total expectation theorem $E[X]=\sum_i P(A_i)E[X|A_i]$, 无条件平均可以由条件平均再求平均得到.
对于随机变量 $X\in[a,b]$, 标准差的上界 $\sigma^2\le\frac{(b-a)^2}{4}$.

3. 独立性

若随机变量 $X$, $Y$ 独立

\[\begin{gather*}E[XY]=E[X]E[Y]\\ \operatorname{var}(X+Y)=E[X^2+2XY+Y^2]-(E[X]+E[Y])^2=\operatorname{var}(X)+\operatorname{var}(Y)\end{gather*}\]

一般随机变量

1. 概率密度函数 probability density function

\[\int_B{f_X(x)dx}=P(X\in B)\]

期望 $E[X]=\int_{-\infty}^\infty{xf_X(x)dx}$
方差 $\operatorname{var}(X)=E[(X-E[X])^2]=\int_{-\infty}^\infty{(x-E[X])^2f_X(x)dx}=E[X^2]-E[X]^2$
若 $Y=aX+b$, $E[Y]=aE[X]+b$, $\operatorname{var}(Y)=a^2\operatorname{var}(X)$

  1. 均匀随机变量 uniform random variable

    \[f_X(x)=\begin{cases}\dfrac{1}{b-a}&\textrm{, if }a\le x\le b\\0&\textrm{, otherwise}\end{cases}\]

    $E[X]=\frac{a+b}{2}$, $E[X^2]=\frac{a^2+ab+b^2}{3}$, $\operatorname{var}(X)=\frac{(b-a)^2}{12}$

  2. 指数随机变量 exponential random variable

    \[f_X(x)=\begin{cases}\lambda e-\lambda x&\textrm{, if }x≥0\\0&\textrm{, otherwise}\end{cases}\]

    $E[X]=\frac{1}{\lambda}$, $E[X^2]=\frac{2}{\lambda^2}, \operatorname{var}(X)=\frac{1}{\lambda^2}$

2. (累积) 分布函数 cumulative distribution function, CDF

\[F_X(x)=P(X\le x)=\begin{cases}\displaystyle\sum_{k\le x}p_X(k),&X\textrm{: 离散}\\\displaystyle\int_{-\infty}^x f_X(t)dt,&X\textrm{: 连续}\end{cases}\]

$F_X(x)$ 将概率从 $-\infty$ 累计到 $x$.

  1. 当 $X$ 是离散随机变量并取整数值

    \[\begin{gather*}F_X(k)=\sum_{i=-\infty}^k p_X(i)\\p_X(k)=P(X\le k)-P(X\le k-1)=F_X(k)-F_X(k-1)\end{gather*}\]
  2. 当 $X$ 是连续随机变量

    \[\begin{gather*}F_X(x)=\int_{-\infty}^x{f_X(t)dt}\\f_X(x)=\frac{dF_X(x)}{dx}\end{gather*}\]

3. 不同随机变量的分布函数

  1. 几何随机变量 $F_{\mathrm{geo}}(n)=1-(1-p)^n$
  2. 指数随机变量

    \[F_{\mathrm{exp}}(x)=\begin{cases}P(X\le x)=0&,x\le 0\\\displaystyle\int_0^x\lambda e^{-\lambda}tdt=-e^{-\lambda t}|_0^x=1-e^{-\lambda x}&,x>0\end{cases}\]
  3. 正态随机变量 normal random variable

    \[\begin{gather*}X\sim N(\mu, \sigma^2)\\ f_X(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\\ E[X]=\mu\\ \operatorname{var}(X)=\sigma^2\end{gather*}\]

    线性变换下正态性不变 $Y=aX+b$, $E[Y]=a\mu+b$, $\operatorname{var}(Y)=a^2\sigma^2$.
    标准正态随机变量 standard normal
    $\mu=0$, $\sigma=1$, $Y\sim N(0,1)$, $X=\sigma Y+\mu$
    CDF $\Phi(y)=P(Y\le y)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^y{e^{-\frac{t^2}{2}}dt}$
    normal 与 standard normal 的转换: $P(X\le x)=\Phi(\frac{x-\mu}{\sigma})$.

4. 条件概率密度函数 conditional PDF

\[P(X\in B|X\in A)=\frac{P(X\in A,\ X\in B)}{P(X\in A)}=\frac{\int_{A\cap B}{f_X(x)dx}}{P(X\in A)}\]

5. 连续贝叶斯准则 continuous Bayes’ Rule

\[f_{(X|Y)}(x|y)=\frac{f_X(x)f_{(Y|X)}(y|x)}{f_Y(y)}=\frac{f_X(x)f_{(Y|X)}(y|x)}{\int_{-\infty}^{\infty}{f_X(t)f_{(Y|X)}(y|t)dt}}\]
  1. 若未观察到的事件 X 为离散随机变量

    \[P(X|Y=y)=\frac{P(X)f_{(Y|X)}(y)}{f_Y(y)}=\frac{P(X)f_{(Y|X)}(y)}{P(X)f_{(Y|X)}(y)+P(X^c)f_{(Y|X^c)}(y)}\]
  2. 若观察到的事件 Y 为离散随机变量

    \[f_{(X|Y)}(x)=\frac{f_X(x)P(Y|X=x)}{P(Y)}=\frac{f_X(x)P(Y|X=x)}{\int_{-\infty}^\infty{f_X(t)P(Y|X=t)dt}}\]

深入内容

1. 随机变量函数 $Y=g(X)$ 的概率密度函数 $f_Y(y)$

$Y$ 的 CDF $F_Y(y)=P(g(X)\le y)=\int_{\{x|g(x)\le y\}}{f_X(x)dx}$
对 $F_Y$ 求导 $f_Y(y)=\frac{dF_Y(y)}{dy}$
一般涉及到连续随机变量函数的计算, 就需要考虑累积分布函数

  1. 线性函数 $Y=aX+b$

    \[f_Y(y)=\frac{1}{|a|}f_X(\frac{y-b}{a})\]
  2. 严格单调函数 $Y=g(X)$ 且 $X=h(Y)$

    \[f_Y(y)=f_X(h(y))\left|\frac{dh(y)}{dy}\right|\]

2. 卷积 convolution

  1. 独立离散随机变量 $X$, $Y$ 和 $Z=X+Y$

    \[\begin{align*}p_Z(z)=&P(X+Y=z)\\ =&\sum_{\{(x,y)|x+y=z\}} P(X=x,Y=y)=\sum_x P(X=x, Y=z-x)\\ =&\sum_x p_X(x)p_Y(z-x)\end{align*}\]
  2. 独立连续随机变量

    \[f_Z(z)=\int_{-\infty}^\infty{f_X(x)f_Y(z-x)dx}\]

    正态随机变量之和的分布也是正态的 $X\sim N(\mu_x, \sigma_x^2)$, $Y\sim N(\mu_y, \sigma_y^2)$, $Z=X+Y$, 则 $Z\sim N(\mu_x+\mu_y, \sigma_x^2+\sigma_y^2)$.

3. 协方差 covariance

\[\begin{gather*}\mathrm{cov}(X, Y)=E[(X-E[X])(Y-E[Y])]=E[XY]-E[X]E[Y]\\ \mathrm{cov}(\boldsymbol{x},\boldsymbol{y})=\frac{1}{n}\sum(x_i-\bar x)(y_i-\bar y)=\frac{1}{n}\sum{x_i y_i}-\frac{1}{n^2}\sum x_i\sum y_i\end{gather*}\]

表示随机变量 $X$, $Y$ 的关联性. 若 $X$, $Y$ 是独立的, 则 $X$, $Y$ 是不相关的 $\mathrm{cov}(X,Y)=0$; 反过来不一定.

  1. 相关系数 correlation coefficient

    \[\rho(X, Y)=\frac{\mathrm{cov}(X,Y)}{\sqrt{\operatorname{var}(X)\operatorname{var}(Y)}}\]

    $\rho\in[-1,1]$, 大于零表示 $X$, $Y$ 正相关, $\vert\rho\vert$ 越大表示趋向程度越大.

  2. 随机变量和的方差

    \[\begin{gather*}\operatorname{var}(X_1+X_2)=\operatorname{var}(X_1)+\operatorname{var}(X_2)+2\mathrm{cov}(X_1,\ X_2)\\ \operatorname{var}(\sum_{i=1}^n X_i)=\sum_{i=1}^n\operatorname{var}(X_i)+\sum_{\{(i,j)|i\ne j\}}\mathrm{cov}(X_i,\ X_j)\end{gather*}\]

4. 条件期望

重期望法则 law of iterated expectations

\[E[E[X|Y]]=\begin{cases}\displaystyle\sum_yE[X|Y=y]p_Y(y)&,Y\textrm{离散}\\\displaystyle\int_{-\infty}^\infty E[X|Y=y]f_Yydy&,Y\textrm{连续}\end{cases}=E[X]\]
  1. $Y$ 条件下对$X$的估计 estimator $\hat X=E[X\vert Y]$
    有 $E[\hat X\vert Y]=\hat X$

估计误差 $\widetilde X=\hat X-X$. $E[\widetilde X|Y]=0$, $E[\widetilde X]=0$
$\hat X$ 和 $\widetilde X$ 是不相关的 $\mathrm{cov}(\hat X, \widetilde X)=E[\hat X\widetilde X]-E[\hat X]E[\widetilde X]=0$
条件方差 $\operatorname{var}(X|Y)=E[(X|Y-E[X|Y])^2]=E[(X|Y-\hat X)^2]=E[\widetilde X^2|Y]$
方差 $\operatorname{var}(\widetilde X)=E[\widetilde X^2]=E[E[\widetilde X^2|Y]]=E[\operatorname{var}(X|Y)]$
全方差法则 law of total variance: $\operatorname{var}(X)=E[\operatorname{var}(X|Y)]+\operatorname{var}(E[X|Y])$

5. 矩母函数, 变换 transforms

\[M_X(s)=E[e^{sX}]\]

当 $X$ 是随机变量时,

\[M(s)=\begin{cases}\displaystyle\sum_x e^{sx}p_X(x)&,X\textrm{为随机变量}\\ \displaystyle\int_{-\infty}^\infty e^{sx}f_X(x)dx&,X\textrm{为连续变量}\end{cases}\]
  1. 不同类型的随机变量
    1. 伯努利随机变量 $p_X(1)=p$, $p_X(0)=1-p$

      \[M(s)=1-p+pe^s\]
    2. 二项分布 $X\sim(n,p)$, $p_X(k)=\textrm{C}_n^kp^k(1-p)^{n-k}$, $k=0, 1, \ldots, n$

      \[M_X(s)=\frac{pe^s}{1-(1-p)e^s}\]
    3. 泊松随机变量 $p_X(x)=\dfrac{\lambda^x e^{-\lambda}}{x!}$

      \[M(s)=\sum_{x=0}^\infty{e^{sx}\frac{\lambda^xe^{-\lambda}}{x!}}=e^{-\lambda}\sum_{x=0}^\infty \frac{(e^s\lambda)^x}{x!}=e^{\lambda(e^s-1)}\]
    4. $(a,b)$上均匀分布. 离散 $p_X(k)=\dfrac{1}{b-a+1}$, $k=a, a+1, \ldots, b$; 连续 $f_X(x)=\dfrac{1}{b-a}$

      \[\begin{gather*}M_{\mathrm{disc}}(s)=\frac{e^{as}}{b-a+1}\frac{e^{(b-a+1)s}-1}{e^s-1}\\ M_{\mathrm{cont}}(s)=\frac{1}{b-a}\frac{e^{sb}-e^{sa}}{s}\end{gather*}\]
    5. 指数随机变量 $f_X(x)=\lambda e^{-\lambda x}$, $x\ge0$

      \[M(s)=\lambda\int_0^\infty e^{sx}e^{-\lambda x}dx=\lambda\left.\frac{e^{(s-\lambda)x}}{s-\lambda}\right|_0^\infty=\begin{cases}\dfrac{\lambda}{\lambda-s}&,s<\lambda\\\infty&,\textrm{ else}\end{cases}\]
    6. 几何随机变量 $p_X(x)=p(1-p)^{x-1}$

      \[M(s)=\frac{pe^s}{1-(1-p)e^s}\]
    7. 正态分布随机变量 $X\sim(\mu, \sigma^2)$
      标准正态分布的概率密度函数 $f_Y(y)=\frac{1}{\sqrt{2\pi}}e^{-\frac{y^2}{2}}$, $Y=\sigma X+\mu$

      \[\begin{gather*}M_Y(s)=\int_{-\infty}^\infty\frac{1}{\sqrt{2\pi}}e^{-\frac{y^2}{2}+sy}dy=e^\frac{s^2}{2}\\ M_X(s)=e^{\frac{\sigma^2s^2}{2}+\mu s}\end{gather*}\]
    8. 随机变量的线性函数 $Y=aX+b$

      \[M_Y(s)=E\left[e^{s(aX+b)}\right]=e^{sb}E[e^{saX}]=e^{sb}M_X(sa)\]
  2. 矩 moments

    \[\begin{align*}\left.\frac{dM(s)}{ds}\right|_{s=0}=&\int_{-\infty}^\infty xf_X(x)dx=E[X]\\ \left.\frac{d^n}{ds^n}M(s)\right|_{s=0}=&\int_{-\infty}^\infty x^nf_X(x)dx=E[X^n]\end{align*}\]

    指数随机变量 $E[X]=\frac{1}{\lambda}$, $E[X^2]=\frac{2}{\lambda^2}$
    矩母函数特点

    1. $M_X(0)=E[1]=1$
    2. 对于 $X\in[0, \infty]$, $\underset{s\rightarrow-\infty}{\lim}{M_X(s)}=P(X=0)$
  3. 独立随机变量和 sums of independent random variables
    $X$, $Y$为独立随机变量, $Z=X+Y$

    \[M_Z(s)=E[e^{sX}e^{sY}]=M_X(s)M_Y(s)\]
    1. 泊松随机变量 $X\sim\lambda$, $Y\sim\mu$, $Z=X+Y$
    \[M_Z(s)=e^{\lambda(e^s-1)}e^{\mu(e^s-1)}=e^{(\lambda+\mu)(e^s-1)}\]

    故 $Z\sim(\lambda+\mu)$

    1. 独立正态随机变量之和 $X\sim(\mu_x,\ \sigma_x^2)$, $Y\sim(\mu_y,\ \sigma_y^2)$, $Z=X+Y$
    \[M_Z(s)=e^{\dfrac{(\sigma_x^2+\sigma_y^2)s^2}{2}+(\mu_x+\mu_y)s}\]

    故 $Z\sim(\mu_x+\mu_y,\ \sigma_x^2+\sigma_y^2)$

6. 随机多个相互独立随机变量之和$Y=X_1+\ldots+X_N$

\[\begin{gather*}E[Y]=E[X]E[N]\\ \operatorname{var}(Y)=\operatorname{var}(X)E[N]+E[X]^2\operatorname{var}(N)\end{gather*}\]

极限理论

独立同分布的随机变量序列 $X_i\sim(\mu, \sigma^2)$
$S_n=X_1+X_2+\ldots+X_n\sim(n\mu, n\sigma^2)$, $M_n=\frac{S_n}{n}\sim(\mu,\frac{\sigma^2}{n})$ 收敛, $Z_n=\dfrac{S_n-n\mu}{\sigma\sqrt n}\sim(0,1)$.

1. 马尔科夫不等式 Markov inequalities, 车比雪夫不等式 Chebyshev inequalities

  1. 马尔科夫不等式
    非负随机变量取大值的概率会 (随着取值越大而) 越来越小.
    若随机变量 $X$ 只取非负值, 对任意 $a>0$, 有

    \[a\int_a^b p(x)dx\le\int_a^b xp(x)dx\le\int_0^b xp(x)dx=E[X]\]

    \[P(x\ge a)\le\frac{E[X]}{a}\]
  2. 车比雪夫不等式
    随机变量远离均值的概率会 (随着取值越大而) 越来越小
    随机变量 $X\sim(\mu, \sigma^2)$, 对任意 $c>0$, 利用马尔科夫不等式 $Y=(X-\mu)^2$, 有

    \[P(|X-\mu|\ge c)\le\frac{\sigma^2}{c^2}\]

2. 弱大数定律 weak law of large numbers

对于充分大 $n$, $M_n$ 的分布大部分集中在 $\mu$ 附近.
$X_1, X_2, \ldots$ 独立同分布, 公共分布均值 $\mu$, $M_n=\dfrac{1}{n}\displaystyle\sum_{i=1}^n X_i$, 对 $\forall\epsilon>0$, 当 $n\rightarrow\infty$ 有

\[P(|M_n-\mu|\ge\epsilon)=P\left(\left|\frac{X_1+X_2+\ldots+X_n}{n}-\mu\right|\ge\epsilon\right)\le\frac{\sigma^2}{n\epsilon^2}\rightarrow0\]

通过弱大数定律可以得到, 频率是概率很好的估计.
通过样本均值推算真值 (期望), 通过弱大数定律可以得到推算”准确”的概率.

3. 依概率收敛 convergence in probability

随机变量序列 $Y_1, Y_2,\ldots$ 对 $\forall\epsilon>0, \delta>0, \exists n_0$ 使得对 $\forall n\ge n_0$ 有

\[P(|Y_n-a|\ge\epsilon)\le\delta\]

\[\underset{n\rightarrow\infty}\lim P(|Y_n-a|\ge\epsilon)=0\]

则称 $Y_n$ 依概率收敛于 $a$. $\epsilon$ 为精度 accuracy level, $\delta$ 为置信水平 confidence level.

4. 中心极限定理 the central limit theorem

$X_1, X_2, \ldots$ 独立同分布, 公共分布均值 $\mu$, 方差 $\sigma^2$. $Z_n=\dfrac{S_n-n\mu}{\sigma\sqrt n}$. 当 $n$ 充分大, $Z_n$ 分布的极限分布为标准正态分布函数 $\Phi(x)=\dfrac{1}{\sqrt{2\pi}}\displaystyle\int_{-\infty}^x e^{-\frac{z^2}{2}}dz$. 即

\[\underset{n\rightarrow\infty}\lim P(Z_n\le x)=\Phi(x)\]

大样本的独立随机变量序列和大致是正态的. 证明过程求 $Z_n$ 的矩母函数, 趋于无穷大后发现与正态概率函数的矩母函数一致.

  1. 二项分布的 De Moivre–Laplace 近似
    二项分布 $S_n\sim(n,p)$ 可以看成 $n$ 个服从参数为 $p$ 的伯努利分布的独立随机变量和 $S_n=X_1+\ldots+X_n$. 应用中心极限定理, 当 $n$ 充分大, $k, l\in\mathbb{N}^+$, 有

    \[P(k\le S_n\le l)\approx\Phi\left(\frac{l+\frac{1}{2}-np}{\sqrt{np(1-p)}}\right)-\Phi\left(\frac{k+\frac{1}{2}-np}{\sqrt{np(1-p)}}\right)\]

5. 强大数定律 the strong law of large numbers

对于充分大 $n$, $M_n$ 的分布大部分集中在 $\mu$ 附近.
$X_1, X_2, \ldots$ 独立同分布, 公共分布均值 $\mu$, $M_n=\frac{1}{n}\sum_{i=1}^n X_i$ 以概率 1 收敛于 $\mu$.

\[P\left(\underset{n\rightarrow\infty}\lim M_n=\mu\right)=1\]
  1. strong vs weak law of large numbers
    弱大数定律: $M_n$ 依概率收敛于 $\mu$. 对 $\forall\epsilon>0$, $\underset{n\rightarrow\infty}\lim P(|M_n-\mu|\le\epsilon)=1$
    强大数定律: $M_n$ 以概率 1 收敛于 $\mu$. 对 $\forall\epsilon>0$, $P\left(\underset{n\rightarrow\infty}\lim |M_n-\mu|\le\epsilon\right)=1$
    弱大数定律: 对 $\forall\epsilon>0,\ \delta>0, \exists N\in\mathbb{N}^+$, 当 $n>N$ 时, $P(|M_n-\mu|\le\epsilon)\ge1-\delta$
    强大数定律: 对 $\forall\epsilon>0, \exists N\in\mathbb{N}^+$, 当 $n>N$ 时, $P(|M_n-\mu|\le\epsilon)=1, |M_n-\mu|\le\epsilon$

伯努利过程 Bernoulli processes 和泊松过程 Poisson processes

随机过程强调数据序列间的相关关系, 对长期均值感兴趣.
两种随机过程:

  1. 到达过程 arrival-type processes, 相邻到达时间是相互独立的
    1. 时间是离散的, 相邻时间服从几何分布, 伯努利过程
    2. 时间是连续的, 相邻时间服从指数分布, 泊松过程
  2. 马尔科夫过程, 未来的数据只依赖于当前的数据, 而与过去的数据无关.

1. 伯努利过程

相互独立的伯努利随机变量序列 $X_1, \ldots, X_n$
对 $\forall i$, $P(X_i=1)=P(\textrm{第}i\textrm{次试验成功})=p$, $P(X_i=0)=1-p$
感兴趣的是在一定时间内总到达次数,或者首次到达的时间.

  1. 随机变量及性质
    1. $n$ 次相继独立的试验 trial 成功的总次数的分布: 二项分布 $S\sim(n,p)$

      \[p_S(k)=\mathrm{C}_n^k p^k(1-p)^{n-k},\ k=0, 1, \ldots, n\]

      $E[S]=np$, $\operatorname{var}(S)=np(1-p)$

    2. 相互独立重复的伯努利试验首次成功的时刻的分布: 几何分布 $T\sim p$

      \[p_T(t)=p(1-p)^{t-1},\ t=1, 2, \ldots\]

      $E[T]=\dfrac{1}{p},\ \operatorname{var}(T)=\dfrac{1-p}{p^2}$

  2. 独立性和无记忆性
    1. 无记忆性 memorylessness: 无论过去发生了什么都不能对未来试验的结果提供任何信息, 是伯努利过程的独立性假设的条件.
      对任意给定的时刻 $n$, 随机变量序列 $X_{n+1},\ X_{n+2},\ \ldots$(过程的将来) 也是伯努利过程, 而且与 $X_1,\ldots,X_n$ (过程的过去) 独立.
    2. 重新开始 fresh-start property: 从任意一个时刻开始, 未来也可以用相同的伯努利过程来建模, 而且与过去相互独立.
      对任意给定的时刻 $n$, 令 $\bar T$ 是时刻 $n$ 之后首次成功的时刻, 则随机变量 $\bar T-n$ 服从参数为 $p$ 的几何分布, 且与随机变量 $X_1,\ldots,\ X_n$ 独立.
  3. 相邻到达间隔时间 interarrival times
    第 $k$ 次到达所需的时间 $Y_k$, 第 $k$ 次到达与第 $k-1$ 次到达的间隔时间 $T_k=Y_k-Y_{k-1}$. $Y_1=T_1$ 为参数为 $p$ 的几何分布, $T_k$ 与 $T_{k-1}$ 独立且几何分布相同.
    伯努利过程相关的序列:
    1. 相互独立, 参数为 $p$ 的几何分布随机变量序列 $T_1,\ T_2,\ldots$, 表示相邻到达时间间隔.
    2. 观测到达的时间为 $T_1,\ T_1+T_2,\ T_1+T_2+T_3,\ldots$
  4. 第 $k$ 次到达时间
    $Y_k=T_1+T_2+\ldots+T_k$, $T_i$ 独立同分布, 服从参数为 $p$ 的几何分布
    $E[Y_k]=\dfrac{k}{p}$, $\operatorname{var}(Y_k)=\dfrac{k(1-p)}{p^2}$
    概率质量函数

    \[p_{Y_k}(t)=\mathrm{C}_{t-1}^{k-1}p^k(1-p)^{t-k},\ t=k,\ k+1, \ldots\]

    称为 $k$ 阶 Pascal 分布.

  5. 二项分布的泊松近似
    $n$ 次独立的伯努利试验成功的次数为二项分布 $\sim(n,p)$, 期望为 $np$. 当 $n$ 充分大, $p$ 很小可以近似为泊松分布.
    1. 泊松分布参数 $\lambda$, 随机变量 $Z$ 取非负整数

      \[p_Z(k)=e^{-\lambda}\frac{\lambda^k}{k!},\ k=0,1,2,\ldots\]

      $E[Z]=\lambda,\ \operatorname{var}(Z)=\lambda$

    2. 二项分布

      \[p_S(k)=\frac{n!}{(n-k)!k!}\cdot p^k(1-p)^{n-k}\]

      在 $n\rightarrow\infty,\ p=\frac{\lambda}{n}$ 时收敛到 $p_Z(k)$

2. 泊松过程

  1. 强度为 $\lambda$ 的泊松过程
    $P(k,\tau)$ 表示在时间段长度为 $\tau$ 的时间内有 $k$ 个到达的概率
    1. 时间同质性 time-homogeneity $k$ 次到达的概率 $P(k,\tau)$ 在相同长度 $\tau$ 的时间段内都是一样的. 到达在任何时候都是等可能的. 对应伯努利过程的假设: 对所有的试验成功的概率都是 $p$.
    2. 独立性 independence 一个特定时间段到达的数目与其他时间段内到达的历史是独立的. 对应伯努利过程的试验独立性.
    3. 小区间概率 small interval probabilities 概率 $P(k,\tau)$ 满足

      \[\begin{align*}P(0,\tau)=&1-\lambda\tau+o(\tau)\\ P(1,\tau)=&\lambda\tau+o_1(\tau)\\ P(k,\tau)=&o_k(\tau),\ k=2,3\ldots\end{align*}\]

      $o(\tau)$ 和 $o_k(\tau)$ 满足 $\underset{\tau\rightarrow0}\lim{\dfrac{o(\tau)}{\tau}}=0$.

  2. 区间内到达次数 number of arrivals in an interval
    参考 1.5 二项分布的泊松近似, 将时间 $\tau$ 分为 $n$ 份, 每份到达的概率为 $\dfrac{\lambda\tau}{n}$. $n\rightarrow\infty$ 同时 $pn=\lambda\tau$ 为常数, 趋于参数为 $\lambda\tau$ 的泊松分布.

    \[P(k,\tau)=e^{-\lambda\tau}\frac{(\lambda\tau)^k}{k!},\ k\in\mathbb{N}^0\]

    $N_\tau$ 为在长度为 $\tau$ 的时间段中到达的次数. $E[N_\tau]=\lambda\tau$, $\operatorname{var}(N_\tau)=\lambda\tau$.
    首次到达的时间为 $T$. $T>t$ 意味着在时间 $[0,t]$ 内没有一次到达.
    分布函数 $F_T(t)=1-P(T>t)=1-P(0,t)=1-e^{-\lambda t}$. 求导得到概率密度函数

    \[f_T(t)=\lambda e^{-\lambda t},\ t\ge0\]

    为服从参数为 $\lambda$ 的指数分布.

  3. 随机变量及性质
    1. 泊松过程的强度为 $\lambda$, 时间长度为 $\tau$ 的区间内到达的总次数的分布: 泊松分布 $N_\tau\sim\lambda\tau$

      \[p_{N_\tau}(k)=P(k,\tau)=e^{-\lambda\tau}\frac{(\lambda\tau)^k}{k!},\ k\in\mathbb{N}^0\]

      $E[N_\tau]=\lambda\tau,\ \operatorname{var}(N_\tau)=\lambda\tau$

    2. 首次到达的时间的分布: 指数分布 $T\sim\lambda$

      \[f_T(t)=\lambda e^{-\lambda t},\ t\ge0\]

      $E[T]=\frac{1}{\lambda},\ \operatorname{var}(T)=\frac{1}{\lambda^2}$

  4. 独立性和无记忆性
    1. 独立性. 对任意给定的时间 $t>0$, 时间 $t$ 之后的过程也是泊松过程, 而且与时间 $t$ 之前 (包括时间 $t$) 的历史过程相互独立.
    2. 无记忆性. 对任意给定的时间 $t$, 令 $\bar T$ 是时间 $t$ 之后首次到达的时间, 则随机变量 $\bar T-t$ 服从参数为 $\lambda$ 的指数分布, 且与时间 $t$ 之前 (包括时间 $t$) 的历史过程相互独立.
  5. 相邻到达时间
    第 $k$ 次到达所需的时间 $Y_k$, 第 $k$ 次到达与第 $k-1$ 次到达的间隔时间 $T_k=Y_k-Y_{k-1}$. $Y_1=T_1$ 为参数为 $\lambda$ 的指数分布, $T_k$ 与 $T_{k-1}$ 独立且指数分布相同.
    泊松过程相关的序列:
    1. 相互独立, 参数为 $\lambda$ 的指数分布随机变量序列 $T_1,\ T_2,\ldots$, 表示相邻到达时间间隔.
    2. 观测到达的时间为 $T_1,\ T_1+T_2,\ T_1+T_2+T_3,\ldots$
  6. 第 $k$ 次到达时间
    $Y_k=T_1+T_2+\ldots+T_k$, $T_i$ 独立同分布, 服从参数为 $\lambda$ 的指数分布
    $E[Y_k]=\frac{k}{\lambda}$, $\operatorname{var}(Y_k)=\frac{k}{\lambda^2}$
    概率质量函数

    \[f_{Y_k}(y)=\frac{\lambda^ky^{k-1}e^{-\lambda y}}{(k-1)!},\ y\ge0\]

    称为 $k$ 阶 Erlang 分布.

  7. 随机变量之和

    $X_i$$N$$Y$
    伯努利分布 $X_i\sim p$二项分布 $N\sim(m,q)$二项分布 $Y\sim(m,pq)$
    伯努利分布 $X_i\sim p$泊松分布 $N\sim\lambda$泊松分布 $Y\sim\lambda p$
    几何分布 $X_i\sim p$几何分布 $N\sim q$几何分布 $Y\sim pq$
    指数分布 $X_i\sim\lambda$几何分布 $N\sim q$指数分布 $Y\sim\lambda q$

    $N_t$ 是长度 $t$ 时间内强度 $\lambda$ 的泊松过程到达的总数目, $T$ 是服从参数为 $\nu$ 的指数分布的时间长度且与泊松过程独立. 则 $N_T+1$ 是几何分布, 参数为 $\dfrac{\nu}{\lambda+\nu}$.

马尔科夫链 Markov chains

伯努利过程和泊松过程是无记忆性的, 未来的状态不依赖于过去的状态:新的“成功”或“到达”不依赖于该过程过去的历史.
马尔科夫过程, 未来会依赖于过去,并且能够在某种程度上通过过去发生的情况预测未来.

1. 离散时间的马尔科夫链

$X_n$ 为时刻 $n$ 链的状态, $S$ 为所有可能状态组成的有限集合, 称状态空间 state space $S=\{1, \ldots, m\},\ m\in\mathbb{N}^+$.
马尔科夫链由转移概率 transition probabilities $p_{ij}$ 描述: 当状态是 $i$ 时, 下一个状态等于 $j$ 的概率是 $p_{ij}$.

\[p_{ij}=P(X_{n+1}=j|X_n=i),\ i,j\in S\]

马尔科夫性质 Markov property: 下一个状态 $X_{n+1}$ 的概率分布只依赖于前一个状态 $X_n$

\[P(X_{n+1}=j|X_n=i,X_{n-1}=i_{n-1},\ldots,X_0=i_0)=P(X_{n+1}=j|X_n=i)=p_{ij}\]

$p_{ij}\ge0$, 对 $\forall i,\ \sum_{j=1}^m p_{ij}=1$

  1. 马尔科夫模型的性质
    1. 模型特征
      1. 状态集合 $S=\{1, 2, \ldots, m\}$
      2. 可能发生状态转移 $(i,j)$ 的集合, 由所有 $p_{ij}>0$ 的 $(i,j)$ 组成
      3. $p_{ij}$ 为正的取值
    2. 马尔科夫链为该模型描述的随机变量序列 $X_0,\ X_1, \ldots$ 取值于 $S$, 满足对 $\forall n,\ \forall i,j\in S$, 所有之前可能的状态序列 $i_0, \ldots, i_{n-1}$, 有 $P(X_{n+1}=j\vert X_n=i,X_{n-1}=i_{n-1},\ldots,X_0=i_0)=p_{ij}$
  2. 马尔科夫链表达
    1. 转移概率矩阵

      \[\left[\begin{matrix}p_{11}&p_{12}&\ldots&p_{1m}\\p_{21}&p_{22}&\ldots&p_{2m}\\\vdots&\vdots&\ddots&\vdots\\p_{m1}&p_{m2}&\ldots&p_{mm}\\\end{matrix}\right]\]
    2. 转移概率图

  3. 路径的概率

    \[P(X_0=i_0,\ X_1=i_1,\ \ldots,X_n=i_n)=P(X_0=i_0)p_{i_0i_1}p_{i_1i_2}\ldots p_{i_{n-1}i_n}\]
  4. $n$ 步转移概率

    \[r_{ij}(n)=P(X_n=j|X_0=i)\]

    Chapman-Kolmogorov 方程

    \[\begin{gather*}r_{ij}(n)=\sum_{k=1}^m r_{ij}(n-1)p_{kj},\ \mathrm{for\ }\forall n>1,\ \forall i,j\\ r_{ij}(1)=p_{ij}\end{gather*}\]

    即 $\mathbf{R}(n)=\mathbf{P}^n$

2. 状态的分类

状态 $j$ 为从状态 $i$ 可达的 accessible: $\exists n,\ r_{ij}(n)>0$
$A(i)$ 为所有从状态 $i$ 可达的状态集合
状态 $i$ 是常返的 recurrent: $\forall j\in A(i),\ i\in A(j)$. 若常返态被访问一次, 则一定会能被回访无数次.
状态 $i$ 是非常返的(瞬态) transient: $\exists j\in A(i),\ i\notin A(j)$. 瞬态只能被回访有限次.

  1. 常返态特点
    $i$ 是常返态, 则 $A(i)$ 为常返类 recurrent class, $A(i)$ 中所有状态相互可达, $A(i)$ 以外的状态不可以从这些状态可达. 即对 $\forall j\in A(i),\ A(i)=A(j)$
    一个马尔科夫链至少存在一个常返状态, 至少存在一个常返类.
  2. 分解
    一个马尔可夫链的状态集合可以分解成一个或多个常返类, 加上可能的一些非常返状态.
    一个常返态从它所属的类里任何一个状态出发是可达的, 但从其他类里的常返状态出发是不可达的.
    从任何一个常返状态出发都不可到达非常返状态.
    从一个非常返状态出发, 至少有一个 (可能有更多个) 常返态是可达的.
  3. 周期
    称一个常返类是有周期的 periodic, 如果它的状态能被分成 $d>1$ 个相互不相交的子集 $S_1,\ldots,S_d$, 且满足所有的转移都是从一个这样的子集到下一个.
    令 $S_1=S_{d+1}$. 若 $i\in S_k$ 且 $p_{ij}>0$, 则 $j\in S_{k+1}$.
    否则称常返类非周期 aperiodic.
    对于有周期的返常类, $\forall n, i,\ \exists j,\ r_{ij}(n)=0$
    非周期的返常类 $R: \exists n$, 对 $\forall i,j\in R,\ r_{ij}(n)>0$. 选定初始态 $i$, 每个状态 $j$ 都可以在确定的 $m$ 步到达.

3. 稳态 steady-state 性质

  1. 稳态概率 steady-state probability
    排除多个返常类和有周期的类, 对于每个状态 $j$, 处于状态 $j$ 的概率 $r_{ij}(n)$ 趋于一个独立于初始状态 $i$ 的极限值 $\pi_j$ 称为稳态概率.

    \[\pi_j\approx P(X_n=j),\ \mathrm{when\ }n\mathrm{\ is\ large}\]
  2. 稳态收敛原理 steady-state convergence theorem
    对于一个非周期的、单个返常类的马尔科夫链, 状态 $j$ 和它对应的稳态概率 $\pi_j$ 具有如下性质
    1. 对于每个 $j$, 对 $\forall i$, 有

      \[\underset{n\rightarrow\infty}\lim r_{ij}(n)=\pi_j\]
    2. $\pi_j$ 是下面方程组的唯一解

      \[\begin{gather}\pi_j=\sum_{k=1}^m\pi_kp_{kj},\ j=1,\ldots,m\label{eq:7.3.2.2.1}\\ 1=\sum_{k=1}^m\pi_k\label{eq:7.3.2.2.2}\end{gather}\]
    3. 对所有非返常状态 $j,\ \pi_j=0$; 对所有返常状态 $j,\ \pi_j>0$.

    稳态概率在状态空间中的概率分布称为链的平稳分布 stationary distribution.
    \eqref{eq:7.3.2.2.1} 式可以由 C-K 方程取极限得到, 称为平衡方程组 balance equations.
    3.2.2 的平衡方程组\eqref{eq:7.3.2.2.1} + 归一化方程\eqref{eq:7.3.2.2.2}得到线性方程组

    \[\left[\begin{matrix}p_{11}-1&p_{21}&\cdots&p_{m1}\\p_{12}&p_{22}-1&\cdots&p_{m2}\\\vdots&\vdots&\ddots&\vdots\\p_{1m}&p_{2m}&\cdots&p_{mm}-1\\1&1&\cdots&1\\\end{matrix}\right]_{(m+1)\times m}\left[\begin{matrix}\pi_1\\\pi_2\\\vdots\\\pi_m\\\end{matrix}\right]_{m\times1}=\left[\begin{matrix}0\\\vdots\\0\\1\\\end{matrix}\right]_{(m+1)\times1}\]

    根据 Perron–Frobenius theorem, 平衡方程组总有非负解; 非周期单返常类的马尔科夫链结合归一化方程总有非负唯一解.

  3. 长期频率解释
    1. 稳态概率~期望频率 steady-state probabilities as expected state frequencies
      对于非周期单返常类的马尔科夫链, 状态的稳态概率 $\pi_j$ 满足

      \[\pi_j=\underset{n\rightarrow\infty}\lim{\frac{\nu_{ij}(n)}{n}}\]

      $\nu_{ij}(n)$ 表示从状态 $i$ 出发, 在 $n$ 次转移中到达 $j$ 的总次数的期望值. $\pi_j$ 也可以看做是状态 $j$ 的长期期望频率.

    2. 特定转移的期望频率 expected frequency of a particular transition
      非周期单返常类的马尔科夫链, $q_{jk}(n)$ 为在时间 $n$ 内, 从状态 $j$ 到状态 $k$ 的转移期望次数, 则有

      \[\underset{n\rightarrow\infty}\lim\frac{q_{jk}(n)}{n}=\pi_j p_{jk}\]

      这两个概念可以用来理解平衡方程组.

  4. 生灭过程 birth-death processes
    线性排列的马尔科夫链, 状态空间 $0,1,\ldots,m$, 转移只发生在相邻状态之间, 或保持不变.
    在状态 $i$ 生的概率 $b_i=P(X_{n+1}=i+1\vert X_n=i)$
    在状态 $i$ 灭的概率 $d_i=P(X_{n+1}=i-1\vert X_n=i)$
    局部平衡方程组

    \[\pi_ib_i=\pi_{i+1}d_{i+1}\quad i=0,1,\ldots,m-1\]

    结合归一化方程 $\displaystyle\sum_i\pi_i=1$ 得到各个状态的稳态概率.

4. 吸收 absorption 概率和吸收的期望时间

到达常返态后就无法离开, 可以认为每个常返态是吸收的, 称为吸收态 absorbing state

\[p_{kk}=1,\ p_{kj}=0\ \mathrm{for\ all\ }j\ne k\]

有多个吸收态时, 吸收概率 $a_i$ 表示链从状态 $i$ 开始最终达到吸收态 $s$ 的概率

\[a_i=P(X_n\textrm{最终等于吸收态}s|X_0=i)\]
  1. 吸收概率方程组
    固定吸收态 $s$, 吸收概率 $a_i$

    \[\begin{align*}a_s&=1\\ a_i&=\begin{cases}0&, \textrm{for all absorbing }i\ne s\\ \displaystyle\sum_{j=1}^m p_{ij}a_j&, \textrm{for all transient }i\end{cases}\end{align*}\]

    吸收概率方程组有解且唯一.

  2. 平均吸收时间 expected time to absorption

    \[\mu_i=E[\textrm{从状态}i\textrm{开始, 直到达到吸收态所需步数}]=E[\min\{n≥0|X_n\textrm{是常返态}\}|X_0=i]\]
    1. 平均吸收时间方程组
      $\mu_1,\ldots\mu_m$ 是下列方程组的唯一解

      \[\mu_i=\begin{cases}0&, \textrm{对所有常返态 }i\\ 1+\displaystyle\sum_{j=1}^m p_{ij}\mu_j&, \textrm{对所有瞬态 }i\end{cases}\]
    2. 访问次数期望
      对于一个有吸收态和瞬态的吸收马尔科夫链, 可以把转移矩阵 $P$ 写成:

      \[\mathbf{P}=\begin{bmatrix}\mathbf{Q}&\mathbf{R}\\0&\mathbf{I}\end{bmatrix}\]

      其中 $\mathbf{Q}$ 是瞬态之间的转移矩阵, $\mathbf{R}$ 是瞬态到吸收态的转移矩阵, $\mathbf{I}$ 是吸收态之间的转移矩阵, 0表示吸收态不会回到瞬态.
      对于瞬态, 初始状态 $i$, $n$ 步之后到达状态 $j$ 的概率矩阵为 $\mathbf{Q}^n$. 那么在被吸收之前, 初始状态 $i$, 状态 $j$ 被访问次数的期望 可以看作是 初始状态 $i$, 第 $k$ 步访问到状态 $j$ 的概率之和, 即把从初始到吸收当作一个单元进行求和, 转换为把每一步当作一个单元进行求和, 称为基本矩阵

      \[\mathbf{N}=\mathbf{I}+\mathbf{Q}+\mathbf{Q}^2+\cdots=(\mathbf{I}-\mathbf{Q})^{-1}\]

      那么被吸收前的期望步数则为基本矩阵的行和. 被特定吸收态吸收的概率 $\mathbf{B}=\mathbf{N}\mathbf{R}$, 暂态 $j$ 被访问多次, 每次都有一定概率进入吸收态 $k$, 因此是两个矩阵之积.

  3. 平均首访时间及回访时间
    只有单个常返类的马尔科夫链, 对特定的常返态 $s$, 从状态 $i$ 到状态 $s$ 的平均首访时间

    \[t_i=E[\textrm{从状态}i\textrm{开始, 首次到达状态}s\textrm{的转移步数}]=E[\min\{n≥0|X_n=s\}|X_0=i]\]

    则有线性方程组

    \[\begin{align*}&t_i=1+\sum_{j=1}^m p_{ij}t_j,\ \mathrm{for\ all\ }i\ne s\\ &t_s=0\end{align*}\]

    平均回访时间

    \[\begin{gather*}t_s^\star=E[\textrm{从状态}s\textrm{开始, 首次回到状态}s\textrm{的转移步数}]=E[\min\{n≥1|X_n=s\}|X_0=s]\\ t_s^\star=1+\sum_{j=1}^m p_{sj}t_j\end{gather*}\]

5. 连续时间的马尔科夫链 continuous-time Markov chains

连续时间过程, 它按照一定的转移概率从一个状态转移到下一个状态, 同时两次转移之间的时间是一个连续随机变量.
涉及到的随机变量
$X_n$: 第 $n$ 次转移后的状态. $X_0$ 为初始状态
$Y_n$: 第 $n$ 次转移的时间. $Y_0=0$
$T_n$: 第 $n-1$ 次转移和第 $n$ 次转移的间隔时间

  1. 连续时间马尔科夫链的假设及相关定义
    1. 如果当前状态是 $i$, 到下一个转移的时间服从已给参数 $\nu_i$ 的指数分布, 且独立于之前的历史过程和下一个状态.
    2. 如果当前状态是 $i$, 按照给定的概率 $p_{ij}$ 到达下一个状态 $j$, 而且独立于之前的历史过程和转移到下一个状态的时间间隔. 状态序列在经过依次转移后成为离散时间的马尔科夫链, 转移概率是 $p_{ij}$, 称为嵌入的 embedded 马尔科夫链.

    对于直到第 $n$ 次转移发生之前链所有发生的事件 $A=\{T_1=t_1, \ldots,T_n=t_n,\ X_0=i_0,\ldots,X_{n-1}=i_{n-1},\ X_n=i\}$, 第 $n+1$ 次转移至状态 $j$ 且转移时间 $\ge t$ 的概率

    \[\begin{align*}P(X_{n+1}=j,\ T_{n+1}\ge t|A)=&P(X_{n+1}=j,\ T_{n+1}\ge t|X_n=i)\\ =&P(X_{n+1}=j|X_n=i)P(T_{n+1}\ge t|X_n=i)\\ =&p_{ij}e_i^{-\nu_it}\end{align*}\]

    到下一个转移的平均时间

    \[E[T_{n+1}|X_n=i]=\int_0^\infty \tau\nu_ie^{-\nu_i\tau}d\tau=\frac{1}{\nu_i}\]

    参数 $\nu_i$ 可以看做停留在状态 $i$ 的单位时间里转移出去的平均转移次数, 也称跳出状态 $i$ 的转移速率 transition rate out of state $i$.
    从状态 $i$ 到 $j$ 的转移速率 transition rate from $i$ to $j$: $q_{ij}=\nu_ip_{ij}$. 反之 $\nu_i=\sum_{j=1}^m q_{ij}$.
    忽略自身转移, 假设 $p_{ii}=q_{ii}=0$.

  2. 离散时间马尔科夫链的近似
    取小正数 $\delta$, 考虑离散时间马尔科夫链 $Z_n=X(n\delta)$. $\bar p_{ij}$ 为 $Z_n$ 的转移概率. 时刻 $n\delta$ 和 $(n+1)\delta$ 之间发生转移的概率近似为 $\nu_i\delta$, 概率 $p_{ij}$ 表示 $i$ 转移到状态 $j$.

    \[\bar p_{ij}=P(Z_{n+1}=j|Z_n=i)=\nu_ip_{ij}\delta+o(\delta)=q_{ij}\delta+o(\delta),\ \mathrm{if\ }j\ne i\]

    停留在状态 $i$ 的概率为 $\bar p_{ii}=P(Z_{n+1}=i|Z_n=i)=1-\sum_j\bar p_{ij}$.
    连续马尔科夫链的另一种描述
    给定连续时间马尔科夫链的当前状态 $i$, 对于任何 $j\ne i$, 单位时间 $\delta$ 之后的状态是 $j$ 的概率是 $q_{ij}\delta+o(\delta)$, 且独立于过程过去的情况.

  3. 稳态性质
    研究对应的离散时间马尔科夫链 $Z_n$ 的稳态概率, 假定 $Z_n$ 只有一个返常类, $Z_n$ 一定是非周期的, 因为具有非零自身转移频率的链总是非周期的.
    $\pi_j=\sum_{k=1}^m\pi_k\bar p_{kj}$ 展开可以得到平衡方程组

    \[\pi_j\sum_{k\ne j} q_{jk}=\sum_{k\ne j} \pi_k q_{kj}\]
    1. 稳态收敛定理
      考虑具有单个常返类的连续时间马尔科夫链, 状态 $j$ 及对应的稳态频率 $\pi_j$ 具有如下性质
      1. 对 $\forall j$, 有

        \[\underset{t\rightarrow\infty}\lim P(X(t)=j|X(0)=i)=\pi_j, \mathrm{ for\ all\ }i\]
      2. $\pi_j$是方程组的唯一解

        \[\begin{align*}\pi_j\sum_{k\ne j} q_{jk}&=\sum_{k\ne j} \pi_k q_{kj}, j=1, ldots, m\\ 1&=\sum_{k=1}^m\pi_k\end{align*}\]
      3. 对于所有瞬态 $j$, $\pi_j=0$; 对于所有常返态 $j$, $\pi_j>0$.
        $\pi_j$ 可以看成过程花费在状态 $j$ 上的时间的平均长期频率
        $\pi_k q_{kj}$ 可以看成从 $k$ 到 $j$ 的转移的平均频率, 或单位时间内的平均次数.
        平衡方程组可以理解为: 从状态 $j$ 开始的转移的频率等于进入状态 $j$ 的转移的频率.

  4. 生灭过程
    生灭过程线性排列, 转移只发生在相邻状态, $q_{ij}=0$, 当 $|i-j|>1$.
    局部平衡方程组: $\forall i, j,\ \pi_j q_{ji}=\pi_iq_{ij}$.
    从而推出稳态概率公式.

贝叶斯统计推断 Bayesian statistical inference

统计推断是从观测数据推断未知变量或模型的有关信息的过程.
如何看待位置模型或变量

  1. 贝叶斯统计推断: 将其看成是已知分布的随机变量
    对未知模型推断, 该模型是随机地从已知的一类模型中选出来的, 用随机变量 $\Theta$ 表示, 构造先验概率分布 $p_\Theta(\theta)$. 在已知数据 $x$ 的情况下, 使用贝叶斯公式推导后验概率分布 $p_{(\Theta\vert X)}(\theta\vert x)$.
    描述模型的变量 $\theta$ 的可能性也服从某个分布函数.
  2. 经典统计推断: 将其看成未知的待估计的量
    将 $\theta$ 视为常数. 经典统计的目标是提出参数 $\theta$ 的估计方法, 并保证具有一些性质. 经典方法处理的不是一个概率模型, 而是有多个待选的概率模型,每个标记为 $\theta$ 的一个可能值.
    描述模型的变量 $\theta$ 的可能性是均匀的, 为一个常量.

1. 贝叶斯推断与后验分布

  1. 贝叶斯推断
    1. 总结
      1. 起点是未知随机变量 $\Theta$ 的先验分布 $p_\Theta$ 或 $f_\Theta$
        先验概率的意思是我们基于历史观测数据和经验对 $\Theta$ 的大致认识
      2. 得到观测向量 $X$ 的条件分布 $p_{(X\vert\Theta)}$ 或 $f_{(X\vert\Theta)}$
      3. $X$ 的特定值 $x$ 观测到后, 运用贝叶斯法则计算 $\Theta$ 的后验分布 $p_{(\Theta\vert X)}$ 或 $f_{(\Theta\vert X)}$
    2. 四种形式

      \(\quad X\)
      \(\Theta\quad\)
      离散
      $$\frac{p_{(X\vert\Theta)}(x\vert\theta)}{p_{(X\vert\Theta)}(x\vert\theta^\prime)}$$
      连续
      $$\frac{f_{(X\vert\Theta)}(x\vert\theta)}{f_{(X\vert\Theta)}(x\vert\theta^\prime)}$$
      离散
      $$p_{(\Theta\vert X)}(\theta\vert x)=\frac{p_\Theta(\theta)}{\sum_{\theta^\prime}p_\Theta(\theta^\prime)}$$
      \(\color{orange}p_{(\Theta\vert X)}(\theta\vert x)=\frac{p_\Theta(\theta)\textcolor{royalblue}{p_{(X\vert\Theta)}(x\vert\theta)}}{\sum_{\theta^\prime}p_\Theta(\theta^\prime)\textcolor{royalblue}{p_{(X\vert\Theta)}(x\vert\theta^\prime)}}\)\(\color{orange}p_{(\Theta\vert X)}(\theta\vert x)=\frac{p_\Theta(\theta)\textcolor{royalblue}{f_{(X\vert\Theta)}(x\vert\theta)}}{\sum_{\theta^\prime}p_\Theta(\theta^\prime)\textcolor{royalblue}{f_{(X\vert\Theta)}(x\vert\theta^\prime)}}\)
      连续
      $$f_{(\Theta\vert X)}(\theta\vert x)=\frac{f_\Theta(\theta)}{\int d\theta^\prime f_\Theta(\theta^\prime)}$$
      \(\color{orange}f_{(\Theta\vert X)}(\theta\vert x)=\frac{f_\Theta(\theta)\textcolor{royalblue}{p_{(X\vert\Theta)}(x\vert\theta)}}{\int d\theta^\prime f_\Theta(\theta^\prime)\textcolor{royalblue}{p_{(X\vert\Theta)}(x\vert\theta^\prime)}}\)\(\color{orange}f_{(\Theta\vert X)}(\theta\vert x)=\frac{f_\Theta(\theta)\textcolor{royalblue}{f_{(X\vert\Theta)}(x\vert\theta)}}{\int d\theta^\prime f_\Theta(\theta^\prime)\textcolor{royalblue}{f_{(X\vert\Theta)}(x\vert\theta^\prime)}}\)

2. 点估计, 假设检验, 最大后验概率准则

  1. 最大后验概率 maximum a posteriori probability, MAP 准则 rule
    给定观测值 $x$, 选择 $\theta$ 的一个取值 $\hat\theta$, 使得后验概率质量函数 $p_{(\Theta|X)}(\theta|x)$ 或后验概率密度函数 $f_{(\Theta|X)}(\theta| x)$ 达到最大.

    \[\begin{gather*}\max{p_{(\Theta|X)}(\theta|x)}=p_{(\Theta|X)}(\hat\theta|x)\\ \max{f_{(\Theta|X)}(\theta|x)}=f_{(\Theta|X)}(\hat\theta|x)\end{gather*}\]

    1.1.2 中的分子部分.
    当 $\Theta$ 是离散型变量, $\hat\theta$ 是 $\Theta$ 最有可能的取值, 使对任意给定的 $x$ 有最大的概率做出正确的决定. MAP rule 使总体 (平均了所有 $x$ 可能的取值) 做出正确决定的概率达到最大 (在所有决策准则中). MAP rule 使做出错误决定的概率达到最小.

  2. 点估计 point estimation
    点估计是一个数值,它表达了我们关于 $\Theta$ 取值的最好猜测.
    估计值 estimate 指的是在得到实际观察值 x 的基础上我们选择的 $\theta$ 的数值. $\hat\theta$ 的数值是由观测值 $x$ 的某些函数 $g$ 决定的, 即 $\hat\theta=g(x)$. 随机变量 $\hat\Theta=g(X)$ 称为估计量 estimator.
    1. MAP 估计量, 使后验分布达到最大的 $\hat\theta$
      1. 若 $\Theta$ 的后验分布关于 (条件) 均值对称并单峰, 最大值在均值处取到, 则 MAP 估计量和条件期望估计量相同.
      2. 若 $\Theta$ 是连续型变量, 求极值可以求导或数值求解.
    2. 条件期望估计量, $\hat\theta=E[\Theta|X=x]$
      最小均方 least mean squares, LMS 估计, 在所有估计量中使均方误差达到最小
  3. 假设检验 hypothesis testing
    在一个假设检验问题中, $\Theta$ 取 $\theta_1,\ldots,\theta_m$ 中的一个值, $m=2$ 为二重 binary 假设检验问题. 称事件 $\{\Theta=\theta_i\}$ 为第 $i$ 个假设, 记为 $H_i$.
    1. 假设检验的最大后验概率准则 MAP rule
      根据观测值 $x$ 选出后验概率最大的假设, 即是使 $p_\Theta(\theta_i)p_{(X|\Theta)}(x|\theta)$($X$ 离散) 或 $p_\Theta(\theta_i)f_{(X|\Theta)}(x|\theta)$($X$ 连续) 达到最大的假设 $H_i$.对任意观测值 $x$, MAP rule 使得选出错误假设的概率最小, 也即犯错的概率最小.
      $g_{\mathrm{MAP}}(x)$ 为 MAP rule 在 $X=x$ 的情况下选出的假设, 做出正确决策的概率为

      \[\begin{gather*}P(\Theta=g_\mathrm{MAP}(x)|X=x)\\ S_i=\{x|\theta_i=g_\mathrm{MAP}(x)\}\end{gather*}\]

      则做出正确决策的总概率为, 全概率定理

      \[P(\Theta=g_\mathrm{MAP}(X))=\sum_i P(\Theta=\theta_i, X\in S_i)\]

      犯错误的概率是

      \[\sum_i P(\Theta\ne\theta_i, X\in S_i)\]

3. 贝叶斯最小均方估计

Bayesian least mean squares estimation

  1. LMS 估计的求解方法
    1. 在没有观测值 $X$ 时, 当估计量 $\hat\theta=E[\Theta]$, 估计量的均方误差 $E[(\Theta-\hat\theta)^2]=\operatorname{var}(\Theta)+(E[\Theta]-\hat\theta)^2$ 达到最小值.
    2. 在有观测值 $X=x$ 时, 当估计量 $\hat\theta=g(X)=E[\Theta\vert X=x]$, 条件均方误差 $E[(\Theta-\hat\theta)^2\vert X=x]$ 达到最小值. 条件期望用 $f_{(\Theta\vert X)}(\theta\vert x)$ 求出.
    3. 在所有基于 $X$ 的 $\Theta$ 估计量 $g(X)$ 中, 当 $g(X)=E[\Theta\vert X]$ 时均方估计误差 $E[(\Theta-g(X))^2]$ 达到最小.
  2. LMS 估计误差的性质
    最小均方估计 $\hat\Theta=E[\Theta|X]$, 相应估计误差 $\widetilde\Theta=\hat\Theta-\Theta$.
    1. 估计误差 $\widetilde\Theta$ 是无偏的 unbiased, 它的条件期望 $E[\widetilde\Theta]=0$, 非条件期望 $\forall x,\ E[\widetilde\Theta\vert X=x]=0$
    2. 估计误差 $\widetilde\Theta$ 和估计量 $\hat\Theta$ 是不相关的. $\mathrm{cov}(\hat\Theta, \widetilde\Theta)=0$
    3. $\Theta$ 的方差可以分解为 $\operatorname{var}(\Theta)=\operatorname{var}(\hat\Theta)+\operatorname{var}(\widetilde\Theta)$

    当 $\hat\Theta=E[\Theta]$ 时, $\hat\Theta$ 为常数, $\operatorname{var}(\hat\Theta)=0$, $\operatorname{var}(\Theta)=\operatorname{var}(\widetilde\Theta)$, 称观测 $X$ 是无信息 uninformative 的.

4. 贝叶斯线性最小均方估计

基于观测 $X_1, \ldots, X_n$ 的 $\Theta$ 的线性估计量形式为 $\hat\Theta=a_1 X_1+\ldots+a_n X_n+b$.

  1. 一次观测的线性最小均方估计
    $n=1,\ \hat\Theta=aX+b$.
    1. 基于 $X$ 的 $\Theta$ 的线性最小均方估计 $\hat\Theta$ 是

      \[\hat\Theta=E[\Theta]+\frac{\mathrm{cov}(\Theta,X)}{\operatorname{var}(X)}(X-E[X])=E[\Theta]+\rho\frac{\sigma_\Theta}{\sigma_X}(X-E[X])\]

      其中 $\rho=\dfrac{\mathrm{cov}(\Theta,X)}{\sigma_\Theta\sigma_X}$ 为相关系数 correlation coefficient.

    2. 均方估计误差为 $(1-\rho^2)\sigma_\Theta^2$.
      估计量以 $\Theta$ 的基本估计 $E[\Theta]$ 为基础, 通过 $X-E[X]$ 的取值来调整.

  2. 多次观测和多参数情形
    1. 对于多参数 $\Theta_i$, 考虑准则 $E[(\Theta_1-\hat\Theta_1)^2]+\ldots+E[(\Theta_m-\hat\Theta_m)^2]$, 使其在所有估计量 $\hat\Theta_1, \ldots, \hat\Theta_m$ 都是观测值的线性函数的情况下达到最小. 这与寻找每个 $\hat\Theta_i$ 使得 $E[(\Theta_i-\hat\Theta_i)^2]$ 达到最小是等价的.
    2. 对于多次观测且相互独立情形, 单参数的公式可简化. $\Theta$ 是均值为 $\mu$ 方差为 $\sigma_0^2$ 的随机变量, $X_1,\ldots X_n$ 是具有 $X_i=\Theta+W_i$ 形式的多次观测, 其中观测误差 $W_i$ 是均值为 $0$ 方差为 $\sigma_i^2$ 的随机变量. 假设 $\Theta,\ W_1, \ldots, W_n$ 互不相关, 则基于观测值 $X_1, \ldots, X_n$ 的 $\Theta$ 的线性最小均方估计量是

      \[\hat\Theta=\frac{\frac{\mu}{\sigma_0^2}+\sum_{i=1}^n\frac{X_i}{\sigma_i^2}}{\sum_{i=0}^n\frac{1}\sigma_i^2}\]

      方法是求 $E[(\Theta-a_1 X_1-\ldots-a_n X_n-b)^2]$ 的最小值.

  3. 线性估计和正态模型
    $\Theta$ 是正态随机变量, 观测值是 $X_i=\Theta+W_i$, 其中 $W_i$ 是独立零均值的正态噪声, 与 $\Theta$ 独立. 则最小均方估计量和线性最小均方估计量一致.
    若 $\Theta,\ X_1, \ldots, X_n$ 都是独立正态随机变量的线性函数, 则最小均方估计, 线性最小均方估计, 最大后验概率估计都是一致的.

经典统计推断 classical statistical inference

利用贝叶斯方法进行统计推断, 将未知参数 $\theta$ 看成随机变量, 是完全确定的概率模型,并能够利用贝叶斯准则对它们进行推导和计算.
经典统计推断认为未知参数 $\theta$ 是确定的 (非随机) 而取值未知. 观测 $X$ 是随机的, 根据 $\theta$ 取值的不同, 服从 $p_X(x;\theta)$(若 X 是离散的) 或 $f_X(x;\theta)$(若 X 是连续的). 对于未知参数 $\theta$ 的每个可能取值都假设一个单独的概率模型.

1. 经典参数估计 classical parameter estimation

  1. 估计量的性质
    给定观测 $X=(X_1, X_2, \ldots, X_n)$, 估计量 estimator 为随机变量 $\hat\Theta_n=g(X)$, 分布依赖于 $\theta$. $\hat\Theta_n$ 的取值为估计值 estimate.
    1. 估计误差 estimation error $\widetilde\Theta_n=\hat\Theta_n-\theta$, 一般非零
    2. 估计量的偏差 bias $b_\theta(\hat\Theta_n)=E_\theta[\hat\Theta_n]-\theta$
    3. $\hat\Theta_n$ 的期望值, 方差, 偏差依赖于 $\theta$, 估计误差同时依赖于观测 $X_1, \ldots, X_n$.
    4. $\hat\Theta_n$ 无偏 unbiased, 当对 $\forall\theta$, $E_\theta[\hat\Theta_n]=\theta$
    5. $\hat\Theta_n$ 渐近无偏 asymptotically unbiased, 当对 $\forall\theta,\ \underset{n\rightarrow\infty}\lim E_\theta[\hat\Theta_n]=\theta$
    6. $\hat\Theta_n$ 为 $\theta$ 的相合 consistent 估计序列, 当对 $\forall\theta$, 序列 $\hat\Theta_n$ 依概率收敛到参数 $\theta$ 的真值.

      \[E_\theta[\widetilde\Theta_n^2]=b_\theta^2(\hat\Theta_n)+\operatorname{var}_\theta(\hat\Theta_n)\]
  2. 最大似然估计 maximum likelihood estimation
    观测量 $X=(X_1, \ldots, X_n)$ 的联合概率质量函数 $p_X(x;\theta)=p_X(x_1,\ldots,x_n;\theta)$($X$ 为离散变量) 或联合概率密度函数 $f(x;\theta)$($X$ 为连续变量). 最大似然估计 ML estimate 是使 $\theta$ 的数值函数 $p_X(x_1,\ldots,x_n;\theta)$ 达到最大的参数值. 此时观测量给定, 质量函数只是 $\theta$ 的函数了.

    \[\begin{align*}\max{p_X(x_1,\ldots,x_n;\theta)}=p_X(x_1,\ldots,x_n;\hat\theta_n)\\ \max{f_X(x_1,\ldots,x_n;\theta)}=f_X(x_1,\ldots,x_n;\hat\theta_n)\end{align*}\]

    称 $p_X(x;\theta)$ 或 $f_X(x;\theta)$ 为似然函数 likelihood function, 表示当参数取值为 $\theta$ 时, 观测值 x 可能出现的概率.
    若 $X_i$ 相互独立, $p_X(x_1,\ldots,\ x_n;\theta)=\prod_{i=1}^n{p_{X_i}(x_i;\theta)}$, 可以求对数似然函数 log-likelihood function 的极值

    \[\begin{align*}\ln{p_X(x_1,\ldots,x_n;\theta)}=\sum_{i=1}^n\ln{p_{X_i}(x_i;\theta)}\\ \ln{f_X(x_1,\ldots,x_n;\theta)}=\sum_{i=1}^n\ln{f_{X_i}(x_i;\theta)}\end{align*}\]

    贝叶斯最大后验概率估计: $p_\Theta(\theta)p_{(X\vert\Theta)(x\vert\theta)}$ 找到最大值时的 $\theta$
    最大似然估计: 均匀先验 ($p_\Theta(\theta)=c$) 的最大后验概率估计.

    1. 性质
      1. 不变原理 invariance principle
        若 $\hat\Theta_n$ 是 $\theta$ 的最大似然估计, 则 $h(\hat\Theta_n)$ 是 $h(\theta)$ 的最大似然估计.
      2. 渐进正态 asymptotic normality
        当 $\theta$ 是标量参数时, $\dfrac{\hat\Theta_n-\theta}{\sigma(\hat\Theta_n)}$ 的分布接近标准正态分布, 其中 $\sigma^2(\hat\Theta_n)$ 是 $\hat\Theta_n$ 的方差; 当 $\theta$ 是向量参数, 针对每个分量可以得到类似的结论.
  3. 随机变量均值和方差的估计
    观测值 $X_1, \ldots, X_n$ 是独立同分布的, 均值 $\theta$ 和方差 $v$ 均未知.
    样本均值 $M_n=\dfrac{X_1+\ldots+X_n}{n}$ 是 $\theta$ 的一个无偏估计量, 均方误差是 $\dfrac{v}{n}$.
    方差的估计量有两个 $\bar S_n^2=\frac{1}{n}\sum_{i=1}^n(X_i-M_n)^2,\ \hat S_n^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-M_n)^2$
    当 $X_i$ 服从正态分布, 估计量 $\bar S_n^2$ 和最大似然估计量相等, 有偏差但渐近无偏; $\hat S_n^2$ 无偏. 当 $n$ 很大时两个方差估计量是一致的.
  4. 置信区间 confidence intervals
    对于一维的确定的未知参数 $\theta$, 其置信区间是一个很高概率包含 $\theta$ 的区间, 端点为 $\hat\Theta_n^-, \hat\Theta_n^+$. $\hat\Theta_n^-, \hat\Theta_n^+$ 是依赖于观测 $X_1, \ldots, X_n$ 的随机变量. $1-\alpha$ 置信区间对 $\theta$ 所有可能的取值满足

    \[P_\theta(\hat\Theta_n^-\le\theta\le\hat\Theta_n^+)\ge1-\alpha\]

    $1-\alpha$ 称为置信水平 confidence level.
    在很多重要模型中 $\hat\Theta_n-\theta$ 的分布是渐近正态无偏的, 即随机变量 $\dfrac{\hat\Theta_n-\theta}{\sqrt{\operatorname{var}_\theta(\hat\Theta_n)}}$ 的概率分布函数在 $n$ 增加时趋于标准正态分布函数 (对于 $\theta$ 所有可能的取值).
    若 $\hat\Theta_n$ 为观测值的平均数, 则置信水平为 $1-\alpha$ 对应的置信区间为 $[\hat\Theta_n-\sigma\Phi^{-1}(1-\dfrac{\alpha}{2}),\ \hat\Theta_n+\sigma\Phi^{-1}(1-\dfrac{\alpha}{2})]$.

  5. 基于方差近似估计量的置信区间
    观测 $X_i$ 是独立同分布 independent identically distributed, IID, 均值 $\theta$ 方差 $v$ 均未知. 用样本均值 $\hat\Theta_n=\frac{1}{n}\sum X_i$ 估计 $\theta$, 无偏估计量 $\hat S_n^2=\frac{1}{n-1}\sum(X_i-\hat\Theta_n)^2$ 估计 $v$. $\dfrac{\hat S_n^2}{n}$ 估计样本均值的方差 $\dfrac{v}{n}$. 则置信水平为 $1-\alpha$ 对应的置信区间为 $[\hat\Theta_n-\dfrac{\hat S_n}{\sqrt n}\Psi_{n-1}^{-1}(1-\dfrac{\alpha}{2}),\ \hat\Theta_n+\dfrac{\hat S_n}{\sqrt n}\Psi_{n-1}^{-1}(1-\dfrac{\alpha}{2})]$.
    随机变量 $T_n=\dfrac{\sqrt n(\hat\Theta_n-\theta)}{\hat S_n}$ 不是正态的, 称为自由度为 $n-1$ 的 $t$- 分布. 分布函数为 $\Psi_{n-1}(z)$.

2. 线性回归 linear regression

给定 $n$ 个数据对 $(x_i,\ y_i)$, 建立线性模型 $y\approx\theta_0+\theta_1x$. 给定参数 $(\theta_0, \theta_1)$ 的估计为 $(\hat\theta_0, \hat\theta_1)$, 模型对 $x_i$ 响应的 $y_i$ 的预测是 $\hat y_i=\hat\theta_0+\hat\theta_1x$, 第 $i$ 个残差 residual ${\widetilde y}_i=y_i-\hat y_i$. 使得残差平方和最小的估计是

\[\begin{align*}\hat\theta_1=&\frac{\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sum_{i=1}^n(x_i-\bar x)^2}\\ \hat\theta_0=&\bar y-\hat\theta_1\bar x\end{align*}\]

其中 $\bar x=\frac{1}{n}\sum_{i=1}^n x_i$, $\bar y=\frac{1}{n}\sum_{i=1}^n y_i$. 称为最小二乘公式 least squares formulation. 最小二乘公式满足经典推断的最大似然估计和贝叶斯最小均方估计.

  1. 贝叶斯线性回归
    将 $x_1,\ldots,x_n$ 当做给定的数, $(y_1,\ldots,y_n)$ 是向量 $Y=(Y_1,\ldots,Y_n)$ 的观测值, 随机向量 $Y_i=\Theta_0+\Theta_1x_i+W_i$. $\Theta=(\Theta_0,\Theta_1)$ 是待估参数, $W_1, \ldots, W_n$ 独立同分布, 均值为 $0$, 方差为 $\sigma^2$.
    $\Theta_0$, $\Theta_1$ 为随机变量, 均值为 $0$, 方差分别为 $\sigma_0^2$ 和 $\sigma_1^2$. 假设 $\Theta_0,\ \Theta_1,\ W_1, \ldots, W_n$ 为正态随机变量
    后验概率密度函数

    \[\begin{align*}f_{(\Theta|Y)}(\theta_0,\theta_1|y_1,\ldots,y_n)=&cf_\Theta(\theta_0,\theta_1)f_{(Y|Theta)}(y_1,\ldots,y_n|theta_0,\theta_1)\\ =&ce^{-\frac{\theta_0^2}{2\sigma_0^2}}e^{-\frac{\theta_1^2}{2\sigma_1^2}}\prod_{i=1}^n e^{-\frac{(y_i-\theta_0-x_i\theta_1)^2}{2\sigma^2}}\end{align*}\]

    最大后验概率密度要求选择 $\theta_0$ 和 $\theta_1$ 使得

    \[\frac{\theta_0^2}{2\sigma_0^2}+\frac{\theta_1^2}{2\sigma_1^2}+\sum_{i=1}^n\frac{(y_i-\theta_0-x_i\theta_1)^2}{2\sigma^2}\]

    最小.
    可以得到最大后验概率估计

    \[\begin{align*}\hat\theta_1=&\frac{\sigma_1^2}{\sigma^2+\sigma_1^2\sum_{i=1}^n(x_i-\bar x)^2}\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)\\ \hat\theta_0=&\frac{n\sigma_0^2}{\sigma^2+n\sigma_0^2}(\bar y-\hat\theta_1\bar x)\end{align*}\]

    其中 $\bar x=\frac{1}{n}\sum_{i=1}^n x_i,\ \bar y=\frac{1}{n}\sum_{i=1}^n y_i$.

  2. considerations

    1. 异方差性 heteroskedasticity
      噪声项的方差不同
      使用甲醛最小二乘准则 $\sum_{i=1}^n \alpha_i(y_i-\theta_0-\theta_1x_i)^2$
    2. 非线性
    3. 多重共线性 multicollinearity
    4. 过度拟合 overfitting
      数据点的数量应该是待估参数个数的 5 倍, 最好是 10 倍.
    5. 因果关系 causality

3. 简单假设检验 binary hypothesis testing

$H_0$ 原假设 null hypothesis, $H_1$ 备择假设 alternative hypothesis, 根据得到的数据决定支持/拒绝 $H_0$
观测量 $X=(X_1, \ldots, X_n)$ 的分布依赖于假设. $P(X\in A;H_j)$ 表示假设 $H_j$ 成立时 $X\in A$ 的概率. $p_X(x;H_j)$ 或 $f_X(x;H_j)$ 为向量 $X$ 在假设 $H_j$ 下的概率质量/密度函数.
不存在条件概率.
观测量 $X$ 的所有可能取值的集合分为集合 $R$, 拒绝域 rejection region 和集合 $R^\mathrm{c}$ , 接受域 acceptance region. 当观测量 $X$ 落在拒绝域中, 假设 $H_0$ 被拒绝 ($H_0$ 是错误的), 否则被接受. 决策准则的选择等价于拒绝域的选择.

  1. 选定拒绝域 R, 有两种可能的错误
    1. 拒绝 $H_0$ 而实际上 $H_0$ 是正确的. 这是第一类错误 Type I error, 或错拒 false rejection, 概率为

      \[\alpha(R)=P(X\in R;H_0)\]
    2. 接受 $H_0$ 而实际上 $H_0$ 是错误的. 这是第二类错误 Type II error, 或受假 false acceptance, 概率为

      \[\beta(R)=P(X\notin R;H_1)\]
  2. 似然比 likelihood ratio

    \[\begin{align*}L(x)=\frac{p_X(x;H_1)}{p_X(x;H_0)}\\ L(x)=\frac{f_X(x;H_1)}{f_X(x;H_0)}\end{align*}\]

    临界值 $\xi$ 可根据各种考虑确定, 对于 $H_0$ 的拒绝域 $R=\{x\vert L(x)>\xi\}$. $\xi=1$ 对应最大似然准则.

  3. 似然比检验 likelihood ratio test, LRT
    1. 确定错误拒绝的概率 $\alpha$ 的目标值, 一般为 0.1, 0.05, 0.01
    2. 选择 $\xi$ 使得错误拒绝的概率为 $\alpha$. $P(L(X)>\xi;H_0)=\alpha$, 从而确定了拒绝域
    3. 观测 $X$ 的取值 $x$, 若 $L(x)>\xi$, 则拒绝 $H_0$
      在给定的错误拒绝概率之下, 似然比检验使得错误接受的概率达到最小.
      1. Neyman-Pearson Lemma
        考虑在似然比检验中一个确定的 $\xi$, 犯错概率 $P(L(X)>\xi;H_0)=\alpha,\ P(L(X)\le\xi;H_1)=\beta$. 假设还有其他检验, 拒绝域为 $R$, 使得错误拒绝的概率一样或更小 $P(X\in R;H_0)\le\alpha$. 则有 $P(X\notin R;H_1)\ge\beta$.
        当 $P(X\in R;H_0)<\alpha$ 成立时, 严格不等式 $P(X\notin R;H_1)>\beta$ 成立.

4. 显著性检验 significance testing

  1. 相关定义
    1. 原假设 null hypothesis, 默认的假设 $H_0$, 根据观测 $X=(X_1,\ldots,X_n)$ 决定拒绝还是接受原假设
    2. 参数模型 parametric models, 假设观测 $X$ 服从完全有未知参数 $\theta$ 决定的概率质量/密度函数, $\theta$ 在给定的集合 $\mathcal{M}$ 中取值
    3. 简单原假设 simple null hypothesis, 原假设断言 $\theta$ 的真值等于 $\mathcal{M}$ 中一个给定的元素 $\theta_0$
    4. 备择假设 alternative hypothesis, $H_1$, 假设 $H_0$ 不正确, 即 $\theta\ne\theta_0$
  2. 一般方法
    基于观测 $X_1, \ldots, X_n$, 对假设 $H_0: \theta=\theta^\star$ 做统计检验
    1. 在观测数据之前
      1. 选择统计量 statistic $S$, 一个能够概括观测数据的随机变量. 选择函数 $h:\mathcal{R}^n\rightarrow\mathcal{R}$ 使得统计量 $S=h(X_1, \ldots, X_n)$.
      2. 确定拒绝域的形状. 拒绝域通常由 $S$ 的取值组成的一个集合, 当 $S$ 落入这个集合, 就拒绝 $H_0$. 在确定这个集合时, 涉及一个未定常数 $\xi$, 称为临界值 critical value.
      3. 选择显著水平 significance level, 错误拒绝 $H_0$ 的概率 $\alpha$
      4. 选择临界值 $\xi$, 使错误拒绝的概率等于或近似等于 $\alpha$. 此时拒绝域被确定. 需要知道 $L(x)$ 在假设 $H_0$ 成立时的分布.
    2. 得到 $X_1, \ldots, X_n$ 的观测值 $x_1, \ldots, x_n$ 后
      1. 计算统计量 $S$ 的值 $s=h(x_1,\ldots,x_n)$
      2. 若 $s$ 落在拒绝域中, 则拒绝假设 $H_0$, 称为 $H_0$ 在显著水平 $\alpha$ 之下被拒绝. $H_0$ is rejected at the $\alpha$ significance level. 在 $H_0$ 成立的模型中, 数据只会以 $\alpha$ 概率的可能性出现.
    3. 或者, 跳过 1.3-1.4, 计算 $S$ 的真实值 $s$ 得到 $p$-值

      \[p\textrm{-value}=\min\{α|H_0\textrm{在显著水平}α\textrm{之下被拒绝}\}\]

      $p$-值是 $s$ 应当在拒绝与不拒绝分界处的 $\alpha$ 值.
      p-value 的概念, 用通俗的话来说, 就是在原假设正确时, 出现现状或更极端的情况的概率.

  3. 广义似然比 generalized likelihood ratio 和拟合优度检验 goodness of fit tests
    1. 拟合优度检验: 检测给定的概率质量函数是否和观测数据保持一致
      考虑一个在有限集合 $\{1,\ldots,m\}$ 上取值的随机变量, $\theta_k$ 是随机变量取值 $k$ 的概率. 随机变量的概率质量函数由向量参数 $\theta=(\theta_1,\ldots,\theta_m)$ 刻画. 考虑假设

      \[\begin{align*}H_0:\ \theta=(\theta_1^\star, \ldots, \theta_m^\star)\\ H_1:\ \theta\ne(\theta_1^\star, \ldots, \theta_m^\star)\end{align*}\]

      其中 $\{\theta_k^\star\}$ 是一组给定的和为 $1$ 的非负数. 抽取随机变量的一个样本量为 $n$ 的样本, 令 $N_k$ 是样本中结果为 $k$ 的次数. 实际观测得到的随机变量是 $X=(N_1, \ldots, N_m)$, 观察值是 $x=(n_1, \ldots, n_m)$. 有 $N_1+\ldots+N_m=n_1+\ldots+n_m=n$.

    2. 广义似然比检验
      1. 通过最大似然来估计模型, 如选择在所有 $\theta$ 中使得似然函数 $p_X(x;\theta)$ 达到最大的参数向量 $\hat\theta=(\hat\theta_1, \ldots, \hat\theta_m)$
      2. 进行似然比检验, 即比较估计模型的似然函数 $p_X(x;\hat\theta)$ 和 $H_0$ 下的 $p_X(x;\theta^\star)$, 计算广义似然比 $\frac{p_X(x;\hat\theta)}{p_X(x;\theta^\star)}$. 若它超过临界值 $\xi$ 则拒绝 $H_0$. 选择 $\xi$ 使得错误拒绝的概率近似等于给定的显著水平 $\alpha$.
    3. 对于拟合优度检验, 二项分布的似然函数 $p_X(x;\theta)=c\theta_1^{n_1}\ldots\theta_m^{n_m}$.
      似然函数达到最大的参数满足 $\hat\theta_k=\dfrac{n_k}{n}$, 似然比检验 $\sum_{k=1}^m n_k\ln{\dfrac{n_k}{n\theta_k^\star}}>\ln\xi$ 则拒绝 $H_0$.
      根据显著水平确定常数 $\xi$. $P(S>\ln\xi;H_0)=\alpha$, $S=\sum_{k=1}^m N_k\ln{\dfrac{N_k}{n\theta_k^\star}}$
      当 $n$ 足够大 $\hat\theta_k\sim\theta_k^\star$, $S$ 的泰勒二阶展开 $S\approx\dfrac{1}{2}\sum_{k=1}^m\frac{(N_k-n\theta_k^\star)^2}{n\theta_k^\star}=\dfrac{T}{2}$. $T$ 的分布逼近自由度为 $m-1$ 的 $\chi^2$ 分布.
      自由度为 $l$ 的 $\chi^2$ 分布定义为随机变量 $\sum_{i=1}^l Z_i^2$ 的分布, 其中 $Z_1, \ldots, Z_l$ 是服从标准正态分布 $Z\sim(0,1)$ 的随机变量.
    4. $\chi^2$ 检验 the Chi-Square test
      1. 利用统计量 $S=\sum_{k=1}^m N_k\ln\dfrac{N_k}{n\theta_k^\star}$(或相关的统计量 $T$) 以及拒绝域 $\{2S>\gamma\}$ 进行检验 (或相应的 $\{T>\gamma\}$)
      2. 临界值 $\xi$ 依照自由度为 $m-1$ 的 $\chi^2$ 分布的概率分布函数表确定, 满足 $P(2S>\gamma;H_0)=\alpha$, 其中 $\alpha$ 是给定的显著水平.

5. 抽样分布

  1. $\chi^2$ 分布
    设 $X_1, X_2, \ldots,\ X_n$ 相互独立, 都服从标准正态分布 $N(0,1)$, 则称随机变量 $X=X_1^2+X_2^2+\ldots+X_n^2$ 所服从的分布为自由度为 $n$ 的 $\chi^2$ 分布. 记作 $X\sim\chi^2(n)$
    概率密度函数 $f_n(x)=\dfrac{1}{2^\frac{n}{2}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}$
    累积分布函数 $F_n(x)=\dfrac{\gamma(\frac{n}{2},\frac{x}{2})}{\Gamma(\frac{n}{2})}$
    随着自由度的增加, 卡方分布逐渐趋近于正态分布. 可以用于单正态总体方差假设检验。
  2. Student’s $t$ 分布
    设 $X_1$ 服从标准正态分布 $N(0,1)$, $X_2$ 服从自由度为 $n$ 的 $\chi^2$ 分布, 且 $X_1,X_2$ 相互独立, 则称变量 $T=\dfrac{X_1}{\sqrt{\frac{X_2}{n}}}$ 所服从的分布为自由度为 $n$ 的 $T$ 分布.
    概率密度函数 $f_n(x)=\dfrac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\dfrac{x^2}{n})^{-\frac{n+1}{2}}$
    累积分布函数 $F_n(x)=\dfrac{\gamma(\frac{n+1}{2},\frac{x^2}{2})}{\Gamma(\frac{n}{2})}$
    T分布是一种连续概率分布,主要用于根据小样本数据对总体均值进行推断。当自由度趋近于无穷大时,T分布趋近于标准正态分布。可以用于正态总体均值假设检验。
  3. F 分布
    设 $X_1$ 服从自由度为 $m$ 的 $\chi^2$ 分布, $X_2$ 服从自由度为 $n$ 的 $\chi^2$ 分布, 且 $X_1,\ X_2$ 相互独立, 则称变量 $F=\dfrac{\frac{X_1}{m}}{\frac{X_2}{n}}$ 所服从的分布为 $F$ 分布 $F\sim F(m,n)$, 其中第一自由度为 $m$, 第二自由度为 $n$.
    概率密度函数 $f_{m,n}(x)=\dfrac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})}(\dfrac{m}{n})^{\frac{m}{2}}x^{\frac{m}{2}-1}(1+\dfrac{m}{n}x)^{-\frac{m+n}{2}}$
    累积分布函数 $F_{m,n}(x)=\dfrac{\gamma(\frac{m+n}{2},\frac{m}{n}x)}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})}$
    F分布是一种非对称分布,且位置不可互换。可以用于双正态总体方差假设检验。
  4. Z 分布
    标准正态分布

根据分布求 $p$ 值, 需要看 $H_1$ 是单侧还是双侧检验.

  • 若备择假设是 $H_1: \mu>\mu_0$, 则 $p$ 值是 $P(Z>z)$;
  • 若备择假设是 $H_1: \mu<\mu_0$, 则 $p$ 值是 $P(Z<z)$;
  • 若备择假设是 $H_1: \mu\ne\mu_0$, 则 $p$ 值是 $2P(Z>\vert z\vert)$.

1. 一个总体的假设检验

参考
根据总体的 $\sigma_0, \mu_0$ 是否已知, 样本 $\{x_1,\cdots, x_n\}$ 容量大小, 适用于不同检验

检验法条件统计量考察量
$Z$ 检验$\sigma_0$ 已知$$z=\frac{\bar X_n-\mu_0}{\frac{\sigma_0}{\sqrt n}}\sim N(0,1)$$$\bar X_n\sim\mu_0$
$\sigma_0$ 未知
大样本 $n\ge30$
$$z=\frac{\bar X_n-\mu_0}{\frac{S_n}{\sqrt n}}\sim N(0,1)$$
$t$ 检验$\sigma_0$ 未知
小样本 $n<30$
$$t=\frac{\bar X_n-\mu_0}{\frac{S_n}{\sqrt n}}\sim T_{n-1}$$
$\chi^2$ 检验$\mu$ 未知$$\chi^2=\frac{(n-1)S_n^2}{\sigma_0^2}\sim\chi_{n-1}^2$$$S_n\sim\sigma_0$
  1. Z 分布
    z-score $z=\dfrac{\bar X_n-\mu}{\frac{S_n}{\sqrt n}}=\dfrac{\bar X_n-\mu_0}{\frac{\sigma_0}{\sqrt n}}$. $S_n$ 为样本均值分布的无偏标准差 (标准误差, 在总体标准差未知的情况下), $\sigma_0$ 为总体标准差.

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    
    import scipy.stats
    import numpy as np
    import statsmodels.stats.weightstats
    data = np.array([...])
    mu_0 = 500
    
    x = (data - mu_0) / (np.std(data, ddof=1) / np.sqrt(len(data)))
    z_value = np.mean(x)
    p_value = scipy.stats.norm.cdf(z_value)
    
    z_value, p_value = statsmodels.stats.weightstats.ztest(data, value=mu_0, alternative="smaller")
    
  2. Student’s $t$ 分布
    $n$ 个独立正态随机变量, 期望值为 $\mu$, 总体方差未知. 样本期望值 $\bar X_n=\frac{X_1+\ldots X_n}{n}$, 样本方差 $S_n^2=\frac{1}{n-1}\sum(X_i-\bar X_n)^2$, 则 $T=\dfrac{\bar X_n-\mu}{\frac{S_n}{\sqrt n}}$ 服从自由度为 $n-1$ 的 $T$ 分布.

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    
    import scipy.stats
    import numpy as np
    data = np.array([...])
    mu_0 = 20
    
    x = (data - mu_0) / (np.std(data, ddof=1) / np.sqrt(len(data)))
    t_value = np.mean(x)
    p_value = scipy.stats.t.sf(t_value, len(data) - 1)  # greater意味着分布函数的另一侧
    
    t_value, p_value = scipy.stats.ttest_1samp(a=data, popmean=mu_0, alternative="greater")
    
  3. $\chi^2$ 分布
    $n$ 个独立标准正态随机变量与均值的偏差平方和 (无偏方差 $(n-1)\hat S_n^2$) 满足自由度为 $n-1$ 的 $\chi^2$ 分布. $X=\dfrac{\sum(X_i-\bar X)^2}{\sigma_0^2}\sim\chi_{n-1}^2$.

    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    
    import scipy.stats
    import numpy as np
    sigma_0 = 4
    data = np.array([17.0, 21.7, 17.9, 22.9, 20.7, 22.4, 17.3, 21.8, 24.2, 25.4])
    var = np.var(data, ddof=1)
    n = len(data)
       
    chi2_value = (n - 1) * var / sigma_0**2
    p_value = scipy.stats.chi2.sf(chi2_value, n - 1)
    chi2_value, p_value
    

2. 两个总体的假设检验

根据总体的 $\sigma_i$ 是否已知, 两样本是否独立, 正态, 样本 $\boldsymbol{X}_i$ 容量大小, 方差 $S_i^2$ 是否相等, 适用于不同检验

检验法样本关系条件统计量考察量
$Z$ 检验独立$\sigma_i$ 已知
或二项分布的大容量近似
$$\frac{\bar X_1-\bar X_2-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)$$$\mu_1\sim\mu_2$
$\sigma_i$ 未知
大样本 $i\ge30$
$$z=\frac{\bar X_1-\bar X_2-(\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}\sim N(0,1)$$
$T$ 检验$\sigma_i$ 未知且假设相等
小样本 $n<30$
$$t=\frac{\bar X_1-\bar X_2}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim T_{n_1+n_2-2}$$
$\sigma_i$ 未知且假设不等
Welch's t-test
$$t=\frac{\bar X_1-\bar X_2}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}\sim T_{\nu}$$
关联样本总体服从正态分布$$t=\frac{\bar d}{\frac{S_d}{\sqrt n}}\sim T_{n-1}$$
Mann-Whitney U test独立总体不服从正态分布$$U=\min(R_1, R_2)$$$\mathrm{median}_1\sim\mathrm{median}_2$
Wilcoxon signed-rank test关联样本$$W=\min(W_+, W_-)$$
$F$ 检验独立$$f=\frac{\frac{\frac{(n_1-1)S_1^2}{\sigma^2}}{n_1-1}}{\frac{\frac{(n_2-1)S_2^2}{\sigma^2}}{n_2-1}}\sim F(n_1-1, n_2-1)$$$S_1\sim S_2$
  1. Z 分布
    z-score $z=\dfrac{\bar X_1-\bar X_2-(\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}=\dfrac{\bar X_1-\bar X_2-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$.
    $S_i$ 为样本 $i$ 均值分布的无偏标准差 (标准误差, 在总体标准差未知的情况下), $\sigma_i$ 为总体 $i$ 的标准差.
    1. 两个样本的比例的比较
      二项分布 $B$ 当样本量较大时, 样本比例 $\frac{B}{n}$ 趋近于正态分布 $N(p, \frac{p(1-p)}{n})$.
      样本之差 $X_1-X_2\sim N(p_1-p_2, \frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)} {n_2})$.
      在原假设 $H_0: p_1=p_2$ 下, 样本比例之差 $X_1-X_2\sim N(0, p(1-p)\left(\frac {1}{n_1}+\frac{1}{n_2}\right))$. 其中 $p$ 使用加权平均 $p=\frac{p_1n_1 +p_2n_2}{n_1+n_2}$.
      故 $z=\dfrac{p_1-p_2}{\sqrt{p(1-p)\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$.
  2. Student’s $t$ 分布
    1. 假设两个样本方差相等

      \[\begin{gather*}t=\dfrac{\bar X_1-\bar X_2}{S_p\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}}\sim T_{n_1+n_2-2}\\ S_p=\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}}\end{gather*}\]

      $S_p$ 称为合并标准差(pooled standard deviation).

      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      
       import scipy.stats
       import numpy as np
       a = np.array([...])
       b = np.array([...])
      
       sp  = np.sqrt(((len(a) - 1) * np.var(a, ddof=1) + (len(b) - 1) * np.var(b, ddof=1)) / (len(a) + len(b) - 2))
       t_value =  (np.mean(a) - np.mean(b)) / (sp * np.sqrt(1 / len(a) + 1 / len(b)))
       p_value = 2 * scipy.stats.t.sf(np.abs(t_value), len(a) + len(b) - 2)  # equal意味着函数两边剩余部分×2
      
       t_value, p_value = scipy.stats.ttest_ind(a, b, equal_var=True, alternative="two-sided")
      

      对于方差是否相等, 可以用 Levene 检验(适用于非正态分布数据)或 Bartlett 检验(适用于正态数据). 其中 Brown-Forsythe 检验是 Levene 检验的改进版本, 适用于多组数据, 且不依赖于数据是否来自正态分布.

      特性Levene检验Bartlett检验Brown-Forsythe检验
      适用数据非正态分布数据正态分布数据非正态分布数据或存在异常值
      对正态性的敏感性 非常敏感,非正态数据下结果不可靠不敏感,对非正态数据稳健
      对异常值的敏感性 非常敏感,异常值会影响结果不敏感,对异常值稳健
      统计功效 正态数据下功效高非正态数据下功效高
      主要用途非正态分布数据的方差齐性检验正态分布数据的方差齐性检验非正态分布数据的方差齐性检验
      函数scipy.stats.levene(center="mean")scipy.stats.bartlettscipy.stats.levene(center="median")

      对于数据是否符合正态分布, 可以使用 Shapiro-Wilk 检验或 Kolmogorov-Smirnov 检验.

      特性Shapiro-Wilk检验Kolmogorov-Smirnov检验
      检验对象仅适用于正态分布检验适用于任何分布的检验
      样本量小样本 $3\le n\le 500$大样本 $n>50n>50$
      检验功效小样本下功效高大样本下功效高
      对尾部的敏感性对尾部偏离敏感对尾部偏离不够敏感
      适用范围正态性检验正态性及其他分布检验
    2. 假设两个样本方差不等, Welch’s t-test

      \[\begin{gather*}t=\dfrac{\bar X_1-\bar X_2}{\sqrt{\dfrac{S_1^2}{n_1}+\dfrac{S_2^2}{n_2}}}\sim T_{\nu}\\ \nu=\frac{\left(\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}\right)^2}{\frac{(S_1^2/n_1)^2}{n_1-1}+\frac{(S_2^2/n_2)^2}{n_2-1}}\end{gather*}\]
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      
       import scipy.stats
       import numpy as np
       a = np.array([...])
       b = np.array([...])
      
       nu = (np.var(a, ddof=1) / len(a) + np.var(b, ddof=1) / len(b))**2 / ((np.var(a, ddof=1) / len(a))**2 / (len(a) - 1) + (np.var(b, ddof=1) / len(b))**2 / (len(b) - 1))
       t_value = (np.mean(a) - np.mean(b)) / np.sqrt(np.var(a, ddof=1) / len(a) + np.var(b, ddof=1) / len(b))
       p_value = 2 * scipy.stats.t.sf(np.abs(t_value), nu)
      
       t_value, p_value = scipy.stats.ttest_ind(a, b, equal_var=False, alternative="two-sided")
      
    3. 两个样本相关联且正态

      \[\begin{gather*}t=\dfrac{\bar d}{\dfrac{S_d}{\sqrt n}}\sim T_{n-1}\\ d=X_1-X_2\end{gather*}\]
      1
      2
      3
      4
      5
      6
      7
      8
      9
      10
      
       import scipy.stats
       import numpy as np
       a = np.array([...])
       b = np.array([...])  # 与a相同长度
      
       d = a - b
       t_value = np.mean(d) / (np.std(d, ddof=1) / np.sqrt(len(d)))
       p_value = 2 * scipy.stats.t.sf(np.abs(t_value), len(d) - 1)
      
       t_value, p_value = scipy.stats.ttest_rel(a, b, alternative="two-sided")
      
  3. Mann-Whitney U 检验
    两组独立样本, 适用于非正态分布, 无需方差齐性. 用于比较两个独立样本的中位数是否显著不同.
    两组样本的数据合并赋予秩次, 计算每组样本的秩和 $R_1, R_2$, 检验统计量 $U=\min(R_1, R_2)$.
    对于小样本 $n_1+n_2\le20$, 通过查表得到临界值 $p=\dfrac{\le U\textrm{ 的情况数}}{\textrm{总排列数}}$; 对于大样本 $U$ 统计量近似服从正态分布,$Z=\dfrac{U-\frac{n_1n_2}{2}}{\sqrt{\frac{n_1n_2(n_1+n_2+1)}{12}}}$.
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    
    import scipy.stats
    import numpy as np
    a = np.array([...])
    b = np.array([...])
    
    ranks = scipy.stats.rankdata(np.concatenate([a, b]))
    # ranks = np.argsort(np.argsort(np.concatenate([a, b]))) + 1
    R1 = ranks[:len(a)].sum()
    R2 = ranks[len(a):].sum()
    # 小样本精确
    u_value = min(R1 - len(a) * (len(a) + 1) / 2, R2 - len(b) * (len(b) + 1) / 2)
    p_value = ...
    
    u_value, p_value = scipy.stats.mannwhitneyu(a, b, alternative="two-sided", method="exact")
    # 大样本近似
    u_value = max(R1 - len(a) * (len(a) + 1) / 2, R2 - len(b) * (len(b) + 1) / 2)  # U1和U2是互补的, 取大取小对于z分布无影响
    z_value = (u_value - len(a) * len(b) / 2 - 0.5) / np.sqrt(len(a) * len(b) * (len(a) + len(b) + 1) / 12)  # 0.5是连续性校正
    p_value = 2 * scipy.stats.norm.sf(np.abs(z_value))
    
    u_value, p_value = scipy.stats.mannwhitneyu(a, b, alternative="two-sided", method="asymptotic")
    
  4. Wilcoxon signed-rank 检验
    两组相关样本, 适用于非正态分布, 无需方差齐性. 用于比较 两个相关样本(配对样本) 的中位数是否显著不同.
    两组样本的数据差值除去差值为 0 的对后为绝对值赋予秩次, 计算正负秩和 $W_+, W_-$, 检验统计量 $W=\min(W_+, W_-)$.
    对于小样本 $n\le20$, 通过查表得到临界值 $p=\dfrac{\le U\textrm{ 的情况数}}{\textrm{总排列数}}$; 对于大样本 $W$ 统计量近似服从正态分布,$Z=\dfrac{U-\frac{n(n+1)}{4}}{\sqrt{\frac{n(n+1)(2n+1)}{24}}}$.
    1
    2
    3
    4
    5
    6
    7
    8
    9
    10
    11
    12
    13
    14
    15
    16
    17
    18
    19
    20
    21
    22
    23
    24
    25
    
     import scipy.stats
     import numpy as np
     a = np.array([...])
     b = np.array([...])
    
     d = a - b
     d = d[d != 0]
     ranks = scipy.stats.rankdata(np.abs(d))
     w_value = min(np.sum(ranks[d > 0]), np.sum(ranks[d < 0]))
     # 小样本精确
     from itertools import combinations
     all_combinations = 2 ** len(d)  # 每个差值有两种符号(正或负)
     W_values = []
     for i in range(all_combinations):
         signs = np.array([(i >> j) & 1 for j in range(len(d))]) * 2 - 1  # 生成符号组合
         W_current = np.sum(ranks * (signs == 1))  # 计算当前组合的 W 统计量
         W_values.append(W_current)
     p_value = np.mean(np.array(W_values) <= W_observed) * 2  # 双侧检验
    
     w_value, p_value = scipy.stats.wilcoxon(a, b, alternative="two-sided", method="exact")
     # 大样本近似
     z_value = (w_value - len(d) * (len(d) + 1) / 4) / np.sqrt(len(d) * (len(d) + 1) * (2 * len(d) + 1) / 24)
     p_value = 2 * scipy.stats.norm.sf(np.abs(z_value))  # 不考虑连续性校正
    
     w_value, p_value = scipy.stats.wilcoxon(a, b, alternative="two-sided", method="asymptotic")
    
  5. F 分布
    两个独立的 $\chi^2$ 随机变量 $X_1\sim\chi_m^2,\ X_2\sim\chi_n^2$, 则 $F=\dfrac{X_1/m}{X_2/n}$ 服从自由度为 $m, n$ 的 $F$ 分布.
    1. 两总体方差之比
      来自正态分布 $N(\mu, \sigma^2)$ 的随机样本方差 $S^2=\frac{1}{n-1}\sum(X_i-\bar X)^2$
      根据 $\chi^2$ 分布定义, 标准化后样本方差服从 $\chi^2$ 分布 $\dfrac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)$.
      在两组独立样本方差相等的假设下, 方差之比 $\dfrac{S_1^2}{S_2^2}=\dfrac{\frac{(n_1-1)S_1^2}{\sigma^2}/(n_1-1)}{\frac{(n_2-1)S_2^2}{\sigma^2}/(n_2-1)}\sim F(n_1-1, n_2-1)$ 即服从 $F$ 分布.
      1
      2
      3
      4
      5
      6
      7
      
      import scipy.stats
      import numpy as np
      data1 = np.array([...])
      data2 = np.array([...])   
      f_value = np.var(data1, ddof=1) / np.var(data2, ddof=1)
      p_value = scipy.stats.f.sf(f_value, len(data1) - 1, len(data2) - 1)
      p_value = 2 * min(p_value, 1 - p_value)  # 双侧检验
      

6. 方差分析

ANOVA(Analysis of Variance)通过分解方差来判断组间差异是否显著。
条件:

  • 独立性:样本之间相互独立。
  • 正态性:每个总体都服从正态分布。
  • 方差齐性:每个总体的方差相等。参考齐次性检验

若不满足上述条件, 考虑使用非参数检验方法, 如 Kruskal-Wallis H-test (scipy.stats.kruskal) 或 Alexander-Govern test (scipy.stats.alexandergovern).

1. 单因素多水平方差分析

只有一个分类自变量, 且有三个或更多组.
对于 $k$ 个水平(组数)的观测值 $x_{k1},\cdots,x_{k,n_k}$, 总样本量为 $N$,
总方差 $\mathrm{SST}=\sum_{i,j}(x_{ij}-\bar x)^2$,
组间方差 $\mathrm{SSB}=\sum_{i=1}^k n_i(\bar x_i-\bar x)^2$,
组内方差 $\mathrm{SSW}=\sum_{i,j}(x_{ij}-\bar x_i)^2$,
F 统计量 $F=\dfrac{\mathrm{SSB}/(k-1)}{\mathrm{SSW}/(N-k)}\sim F(k-1, N-k)$

1
2
3
4
5
import scipy.stats
import numpy as np
data = np.array([...])
groups = np.array([...])
f_value, p_value = scipy.stats.f_oneway(*[data[groups == i] for i in np.unique(groups)])

事后检验(Post-hoc Test)
如果 One-Way ANOVA 的结果显著(即拒绝零假设),通常需要进行 事后检验 来进一步确定哪些组之间存在显著差异。常用的事后检验方法包括:

  • Tukey’s HSD 检验:适用于所有组的两两比较。
  • Bonferroni 校正:适用于少量组的两两比较。
  • Scheffé 检验:适用于复杂的多重比较。

2. 双因素方差分析

有两个分类自变量, 且每个自变量有两个或更多水平.
双因素方差分析用于研究 两个分类自变量(因素) 对连续因变量的影响,以及这两个因素之间是否存在交互作用。

  • 主效应:每个因素对因变量的独立影响。
  • 交互效应:两个因素共同对因变量的影响。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols

# 示例数据
data = pd.DataFrame({
    'Y': [23, 29, 20, 32, 27, 31, 36, 28, 40, 34, 45, 49, 42, 50, 47],
    'A': ['A1', 'A1', 'A1', 'A2', 'A2', 'A2', 'A3', 'A3', 'A3', 'A1', 'A1', 'A1', 'A2', 'A2', 'A2'],
    'B': ['B1', 'B1', 'B1', 'B1', 'B1', 'B1', 'B1', 'B1', 'B1', 'B2', 'B2', 'B2', 'B2', 'B2', 'B2']
})

# 拟合线性模型
# C(A)表示分类变量A
# C(A):C(B)表示A和B的交互作用
model = ols('Y ~ C(A) + C(B) + C(A):C(B)', data=data).fit()

# 进行方差分析
anova_table = sm.stats.anova_lm(model, typ=2)
print(anova_table)

anova_lm 的输出结果是一个表格,包含以下信息:

  • sum_sq:平方和(Sum of Squares)
  • df:自由度(Degrees of Freedom)
  • F:F 统计量
  • PR(>F):p 值
  • Residual 表示残差
 sum_sqdfFPR(>F)
C(A)123.452.05.6780.0123
C(B)67.891.06.5430.0234
C(A):C(B)45.672.02.3450.1456
Residual234.569.0NaNNaN

7. 相关性分析

相关性分析用于研究两个变量之间的关系。

变量1变量2相关系数计算方法函数
连续型变量连续型变量Pearson(正态分布)
Spearman(非正态分布)
scipy.stats.pearsonr(X, Y)
scipy.stats.spearmanr(X, Y)
二分类变量(无序)Point-biserialscipy.stats.pointbiserialr(X, Y)
二分类变量(有序)Biserial
无序分类变量方差分析
有序分类变量连续指标离散化后当做有序分类
二分类变量二分类变量$\chi^2$ 检验联合Cramer's V
无序分类变量无序分类变量$\chi^2$ 检验
Fisher检验
有序分类变量$\chi^2$ 检验
有序分类变量Spearman / Kendall Tau相关系数scipy.stats.kendalltau(X, Y)
  • 连续型变量: 商品曝光量
  • 二分类变量(无序): 性别
  • 二分类变量(有序): 考试是否通过
  • 无序分类变量: 产品类型
  • 有序分类变量: 产品等级

分类变量的相关性分析, 对于 $n\times m$ 的列联表, $O_{ij}$ 为单元格观测频数, $E_{ij}$ 为单元格期望频数, $N$ 为总频数, $C_j$ 为列总和.

指标适用范围取值范围公式特点
$\chi^2$ 检验任何 $n\times m$ 表
$\forall E_{ij}\ge 5$
$\ge0$\(\chi^2=\sum\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\)检验独立性,不衡量关联强度
Fisher 精确检验$2\times 2$ 表$\ge0$\(F=\frac{\prod_{i=1}^2{(O_{i1}+O_{i2})!(O_{1i}+O_{2i})!}}{(\prod_{ij}O_{ij}!)N!}\)适用于小样本的分类变量相关性分析
$\phi$ 系数$2\times 2$ 表$[0, 1]$\(\phi=\sqrt{\frac{\chi^2}{N}}\) 
列联系数任何 $n\times m$ 表$\left[0, 1\right)$\(C=\sqrt{\frac{\chi^2}{\chi^2+N}}\) 
校正列联系数任何 $n\times m$ 表$[0, 1]$\(C_\textrm{adj}=\sqrt{\frac{\chi^2}{\chi^2+N}}\sqrt{\frac{\min(n,m)}{\min(n,m)-1}}\) 
Cramer’s V任何 $n\times m$ 表$[0, 1]$$V=\sqrt{\frac{\chi^2}{N(\min(n, m)-1)}}$最常用
$\lambda$ 系数任何 $n\times m$ 表$[0, 1]$\(\lambda=\frac{\sum_{i=1}^k \max_j O_{ij}-\max_j C_j}{N-\max_j C_j}\)衡量预测能力, 非关联强度
1
2
3
4
5
6
7
8
9
10
11
12
import scipy.stats
import numpy as np

contigency_table = np.array([[...], [...]])
chi2_value, p_value, dof, expected = scipy.stats.chi2_contingency(contigency_table)

# Cramer's V
n = np.sum(contigency_table)
v = np.sqrt(chi2_value / (n * (min(contigency_table.shape) - 1)))

# fisher 精确检验
odds_ratio, p_value = scipy.stats.fisher_exact(contigency_table)
本文由作者按照 CC BY 4.0 进行授权