概率导论笔记
概率导论 Introduction to Probability, 2E, Bertsekas
样本空间与概率
1. 概率模型
sample space 所有可能结果的集合 $\Omega$
 probability law 为每个结果确定一个概率 $P(A)$ , 每个结果需要 mutually exclusive
2. 概率公理 axioms
- 非负性 $P(A)≥0$
- 可加性 $P(⋃_iA_i )=∑P(A_i)$
- 归一化 $P(Ω)=1$
3. 条件概率 conditional probability
满足 B 事件时发生 A 事件的概率: $P(A│B)=P(A∩B)/P(B)$. 用韦恩图理解
乘法规则
\[\begin{align*} P(∩_{i=1}^n A_i )=&P(A_1) \frac{P(A_2∩A_1 )}{P(A_1 )}\frac{P(A_3∩A_2∩A_1 )}{P(A_2∩A_1 )} …\\ =&P(A_1 )P(A_2│A_1 )P(A_3│A_1∩A_2 )…P(A_n│⋂_{i=1}^{n-1}A_i )\\ =&P(A_1 ) ∏_{i=2}^n P(A_i│⋂_{j=1}^{i-1}A_j ) \end{align*}\]4. 全概率定理 Total Probability Theorem
若 $A_i$ 是样本空间的分割, $P(B)=\sum P(A_i\cap B)=\sum{P(A_i)P(B|A_i)}$
 贝叶斯准则 Bayes’ Rule
 若 $A_i$ 是样本空间的分割, 则
在因果推理 inference 中, 若 $A_i$ 为因, $B$ 为果时, $P(A_i)$ 为先验概率 prior probability; $P(A_i\vert B)$ 表示 结果 $B$ 是由原因 $A_i$ 造成的概率, 为后验概率 posterior probability
5. 独立性 independence
\[P(A\cap B)=P(A)P(B)\]等价于
\[P(A|B)=P(A)\]有 $n$ 个事件 $A_i$, 若对这些事件的任意子集 $S$ 都有 $P(\bigcap_{i\in S} A_i)=\prod_{i\in S} P(A_i)$, 则称 $A_i$ 为相互独立事件.
条件独立 conditional independence
 在给定 $C$ 事件发生的条件下独立 $P(A\cap B\vert C)=P(A\vert C)P(B\vert C)$
两式得到 $P(A\vert C)=P(A\vert B\cap C)$
离散随机变量
1. 概率质量函数 probability mass function
\[p_X(x)=P(\{X=x\})\]- 伯努利随机变量 Bernoulli random variable, 对于事件 $X$, $p_X(1)=p$, $p_X(0)=1-p$
 $E[X]=p$, $E[X^2]=p$, $\operatorname{var}(X)=p(1-p)$
- 二项 Binominal 随机变量 $p_X(k)=C_n^kp^k(1-p)^{n-k}$, $E[X]=np$, $\operatorname{var}(X)=np(1-p)$
 $\lim_{n\rightarrow\infty}E=np=\lambda$ 分布趋于泊松分布
 二项分布相当于 $n$ 次独立的伯努利分布的叠加
- 几何 Geometric 随机变量 $p_X(k)=(1-p)^{k-1}p$, $E[X]=\frac{1}{p}$, $\operatorname{var}(X)=\frac{1-p}{p^2}$
- 泊松 Poisson 随机变量 $p_X(k)=e^{-\lambda}\frac{\lambda^k}{k!}$
 $E[X]=\lambda$, $\operatorname{var}(X)=\lambda$
2. 期望 expectation
\[E[X]=\sum_x xp_X(x)\]随机变量 $X$ 的 n 阶矩 nth moment 为 $E[X^n]=\sum_x x^np_X(x)$
 期望规则 expected value rule $E[g(X)]=\sum_x g(x)p_X(x)$
 方差 variance $\operatorname{var}(X)=E[(X-E[X])^2]=\sum_x (x-E[X])^2p_X(x)=E[X^2]-E[X]^2$
 标准差 standard deviation $\sigma_X=\sqrt{\operatorname{var}(X)}$
 全期望定理 total expectation theorem $E[X]=\sum_i P(A_i)E[X|A_i]$, 无条件平均可以由条件平均再求平均得到.
 对于随机变量 $X\in[a,b]$, 标准差的上界 $\sigma^2\le\frac{(b-a)^2}{4}$.
3. 独立性
若随机变量 $X$, $Y$ 独立
\[\begin{gather*}E[XY]=E[X]E[Y]\\ \operatorname{var}(X+Y)=E[X^2+2XY+Y^2]-(E[X]+E[Y])^2=\operatorname{var}(X)+\operatorname{var}(Y)\end{gather*}\]一般随机变量
1. 概率密度函数 probability density function
\[\int_B{f_X(x)dx}=P(X\in B)\]期望 $E[X]=\int_{-\infty}^\infty{xf_X(x)dx}$
 方差 $\operatorname{var}(X)=E[(X-E[X])^2]=\int_{-\infty}^\infty{(x-E[X])^2f_X(x)dx}=E[X^2]-E[X]^2$
 若 $Y=aX+b$, $E[Y]=aE[X]+b$, $\operatorname{var}(Y)=a^2\operatorname{var}(X)$
- 均匀随机变量 uniform random variable \[f_X(x)=\begin{cases}\dfrac{1}{b-a}&\textrm{, if }a\le x\le b\\0&\textrm{, otherwise}\end{cases}\]- $E[X]=\frac{a+b}{2}$, $E[X^2]=\frac{a^2+ab+b^2}{3}$, $\operatorname{var}(X)=\frac{(b-a)^2}{12}$ 
- 指数随机变量 exponential random variable \[f_X(x)=\begin{cases}\lambda e-\lambda x&\textrm{, if }x≥0\\0&\textrm{, otherwise}\end{cases}\]- $E[X]=\frac{1}{\lambda}$, $E[X^2]=\frac{2}{\lambda^2}, \operatorname{var}(X)=\frac{1}{\lambda^2}$ 
2. (累积) 分布函数 cumulative distribution function, CDF
\[F_X(x)=P(X\le x)=\begin{cases}\displaystyle\sum_{k\le x}p_X(k),&X\textrm{: 离散}\\\displaystyle\int_{-\infty}^x f_X(t)dt,&X\textrm{: 连续}\end{cases}\]$F_X(x)$ 将概率从 $-\infty$ 累计到 $x$.
- 当 $X$ 是离散随机变量并取整数值 \[\begin{gather*}F_X(k)=\sum_{i=-\infty}^k p_X(i)\\p_X(k)=P(X\le k)-P(X\le k-1)=F_X(k)-F_X(k-1)\end{gather*}\]
- 当 $X$ 是连续随机变量 \[\begin{gather*}F_X(x)=\int_{-\infty}^x{f_X(t)dt}\\f_X(x)=\frac{dF_X(x)}{dx}\end{gather*}\]
3. 不同随机变量的分布函数
- 几何随机变量 $F_{\mathrm{geo}}(n)=1-(1-p)^n$
- 指数随机变量 \[F_{\mathrm{exp}}(x)=\begin{cases}P(X\le x)=0&,x\le 0\\\displaystyle\int_0^x\lambda e^{-\lambda}tdt=-e^{-\lambda t}|_0^x=1-e^{-\lambda x}&,x>0\end{cases}\]
- 正态随机变量 normal random variable \[\begin{gather*}X\sim N(\mu, \sigma^2)\\ f_X(x)=\frac{1}{\sqrt{2\pi}\sigma}e^{-\frac{(x-\mu)^2}{2\sigma^2}}\\ E[X]=\mu\\ \operatorname{var}(X)=\sigma^2\end{gather*}\]- 线性变换下正态性不变 $Y=aX+b$, $E[Y]=a\mu+b$, $\operatorname{var}(Y)=a^2\sigma^2$. 
 标准正态随机变量 standard normal
 $\mu=0$, $\sigma=1$, $Y\sim N(0,1)$, $X=\sigma Y+\mu$
 CDF $\Phi(y)=P(Y\le y)=\frac{1}{\sqrt{2\pi}}\int_{-\infty}^y{e^{-\frac{t^2}{2}}dt}$
 normal 与 standard normal 的转换: $P(X\le x)=\Phi(\frac{x-\mu}{\sigma})$.
4. 条件概率密度函数 conditional PDF
\[P(X\in B|X\in A)=\frac{P(X\in A,\ X\in B)}{P(X\in A)}=\frac{\int_{A\cap B}{f_X(x)dx}}{P(X\in A)}\]5. 连续贝叶斯准则 continuous Bayes’ Rule
\[f_{(X|Y)}(x|y)=\frac{f_X(x)f_{(Y|X)}(y|x)}{f_Y(y)}=\frac{f_X(x)f_{(Y|X)}(y|x)}{\int_{-\infty}^{\infty}{f_X(t)f_{(Y|X)}(y|t)dt}}\]- 若未观察到的事件 X 为离散随机变量 \[P(X|Y=y)=\frac{P(X)f_{(Y|X)}(y)}{f_Y(y)}=\frac{P(X)f_{(Y|X)}(y)}{P(X)f_{(Y|X)}(y)+P(X^c)f_{(Y|X^c)}(y)}\]
- 若观察到的事件 Y 为离散随机变量 \[f_{(X|Y)}(x)=\frac{f_X(x)P(Y|X=x)}{P(Y)}=\frac{f_X(x)P(Y|X=x)}{\int_{-\infty}^\infty{f_X(t)P(Y|X=t)dt}}\]
深入内容
1. 随机变量函数 $Y=g(X)$ 的概率密度函数 $f_Y(y)$
$Y$ 的 CDF $F_Y(y)=P(g(X)\le y)=\int_{\{x|g(x)\le y\}}{f_X(x)dx}$
 对 $F_Y$ 求导 $f_Y(y)=\frac{dF_Y(y)}{dy}$
 一般涉及到连续随机变量函数的计算, 就需要考虑累积分布函数
- 线性函数 $Y=aX+b$ \[f_Y(y)=\frac{1}{|a|}f_X(\frac{y-b}{a})\]
- 严格单调函数 $Y=g(X)$ 且 $X=h(Y)$ \[f_Y(y)=f_X(h(y))\left|\frac{dh(y)}{dy}\right|\]
2. 卷积 convolution
- 独立离散随机变量 $X$, $Y$ 和 $Z=X+Y$ \[\begin{align*}p_Z(z)=&P(X+Y=z)\\ =&\sum_{\{(x,y)|x+y=z\}} P(X=x,Y=y)=\sum_x P(X=x, Y=z-x)\\ =&\sum_x p_X(x)p_Y(z-x)\end{align*}\]
- 独立连续随机变量 \[f_Z(z)=\int_{-\infty}^\infty{f_X(x)f_Y(z-x)dx}\]- 正态随机变量之和的分布也是正态的 $X\sim N(\mu_x, \sigma_x^2)$, $Y\sim N(\mu_y, \sigma_y^2)$, $Z=X+Y$, 则 $Z\sim N(\mu_x+\mu_y, \sigma_x^2+\sigma_y^2)$. 
3. 协方差 covariance
\[\begin{gather*}\mathrm{cov}(X, Y)=E[(X-E[X])(Y-E[Y])]=E[XY]-E[X]E[Y]\\ \mathrm{cov}(\boldsymbol{x},\boldsymbol{y})=\frac{1}{n}\sum(x_i-\bar x)(y_i-\bar y)=\frac{1}{n}\sum{x_i y_i}-\frac{1}{n^2}\sum x_i\sum y_i\end{gather*}\]表示随机变量 $X$, $Y$ 的关联性. 若 $X$, $Y$ 是独立的, 则 $X$, $Y$ 是不相关的 $\mathrm{cov}(X,Y)=0$; 反过来不一定.
- 相关系数 correlation coefficient \[\rho(X, Y)=\frac{\mathrm{cov}(X,Y)}{\sqrt{\operatorname{var}(X)\operatorname{var}(Y)}}\]- $\rho\in[-1,1]$, 大于零表示 $X$, $Y$ 正相关, $\vert\rho\vert$ 越大表示趋向程度越大. 
- 随机变量和的方差 \[\begin{gather*}\operatorname{var}(X_1+X_2)=\operatorname{var}(X_1)+\operatorname{var}(X_2)+2\mathrm{cov}(X_1,\ X_2)\\ \operatorname{var}(\sum_{i=1}^n X_i)=\sum_{i=1}^n\operatorname{var}(X_i)+\sum_{\{(i,j)|i\ne j\}}\mathrm{cov}(X_i,\ X_j)\end{gather*}\]
4. 条件期望
重期望法则 law of iterated expectations
\[E[E[X|Y]]=\begin{cases}\displaystyle\sum_yE[X|Y=y]p_Y(y)&,Y\textrm{离散}\\\displaystyle\int_{-\infty}^\infty E[X|Y=y]f_Yydy&,Y\textrm{连续}\end{cases}=E[X]\]- $Y$ 条件下对$X$的估计 estimator $\hat X=E[X\vert Y]$
 有 $E[\hat X\vert Y]=\hat X$
估计误差 $\widetilde X=\hat X-X$. $E[\widetilde X|Y]=0$, $E[\widetilde X]=0$
 $\hat X$ 和 $\widetilde X$ 是不相关的 $\mathrm{cov}(\hat X, \widetilde X)=E[\hat X\widetilde X]-E[\hat X]E[\widetilde X]=0$
 条件方差 $\operatorname{var}(X|Y)=E[(X|Y-E[X|Y])^2]=E[(X|Y-\hat X)^2]=E[\widetilde X^2|Y]$
 方差 $\operatorname{var}(\widetilde X)=E[\widetilde X^2]=E[E[\widetilde X^2|Y]]=E[\operatorname{var}(X|Y)]$
 全方差法则 law of total variance: $\operatorname{var}(X)=E[\operatorname{var}(X|Y)]+\operatorname{var}(E[X|Y])$
5. 矩母函数, 变换 transforms
\[M_X(s)=E[e^{sX}]\]当 $X$ 是随机变量时,
\[M(s)=\begin{cases}\displaystyle\sum_x e^{sx}p_X(x)&,X\textrm{为随机变量}\\ \displaystyle\int_{-\infty}^\infty e^{sx}f_X(x)dx&,X\textrm{为连续变量}\end{cases}\]- 不同类型的随机变量- 伯努利随机变量 $p_X(1)=p$, $p_X(0)=1-p$ \[M(s)=1-p+pe^s\]
- 二项分布 $X\sim(n,p)$, $p_X(k)=\textrm{C}_n^kp^k(1-p)^{n-k}$, $k=0, 1, \ldots, n$ \[M_X(s)=\frac{pe^s}{1-(1-p)e^s}\]
- 泊松随机变量 $p_X(x)=\dfrac{\lambda^x e^{-\lambda}}{x!}$ \[M(s)=\sum_{x=0}^\infty{e^{sx}\frac{\lambda^xe^{-\lambda}}{x!}}=e^{-\lambda}\sum_{x=0}^\infty \frac{(e^s\lambda)^x}{x!}=e^{\lambda(e^s-1)}\]
- $(a,b)$上均匀分布. 离散 $p_X(k)=\dfrac{1}{b-a+1}$, $k=a, a+1, \ldots, b$; 连续 $f_X(x)=\dfrac{1}{b-a}$ \[\begin{gather*}M_{\mathrm{disc}}(s)=\frac{e^{as}}{b-a+1}\frac{e^{(b-a+1)s}-1}{e^s-1}\\ M_{\mathrm{cont}}(s)=\frac{1}{b-a}\frac{e^{sb}-e^{sa}}{s}\end{gather*}\]
- 指数随机变量 $f_X(x)=\lambda e^{-\lambda x}$, $x\ge0$ \[M(s)=\lambda\int_0^\infty e^{sx}e^{-\lambda x}dx=\lambda\left.\frac{e^{(s-\lambda)x}}{s-\lambda}\right|_0^\infty=\begin{cases}\dfrac{\lambda}{\lambda-s}&,s<\lambda\\\infty&,\textrm{ else}\end{cases}\]
- 几何随机变量 $p_X(x)=p(1-p)^{x-1}$ \[M(s)=\frac{pe^s}{1-(1-p)e^s}\]
- 正态分布随机变量 $X\sim(\mu, \sigma^2)$ \[\begin{gather*}M_Y(s)=\int_{-\infty}^\infty\frac{1}{\sqrt{2\pi}}e^{-\frac{y^2}{2}+sy}dy=e^\frac{s^2}{2}\\ M_X(s)=e^{\frac{\sigma^2s^2}{2}+\mu s}\end{gather*}\]
 标准正态分布的概率密度函数 $f_Y(y)=\frac{1}{\sqrt{2\pi}}e^{-\frac{y^2}{2}}$, $Y=\sigma X+\mu$
- 随机变量的线性函数 $Y=aX+b$ \[M_Y(s)=E\left[e^{s(aX+b)}\right]=e^{sb}E[e^{saX}]=e^{sb}M_X(sa)\]
 
- 矩 moments \[\begin{align*}\left.\frac{dM(s)}{ds}\right|_{s=0}=&\int_{-\infty}^\infty xf_X(x)dx=E[X]\\ \left.\frac{d^n}{ds^n}M(s)\right|_{s=0}=&\int_{-\infty}^\infty x^nf_X(x)dx=E[X^n]\end{align*}\]- 指数随机变量 $E[X]=\frac{1}{\lambda}$, $E[X^2]=\frac{2}{\lambda^2}$ 
 矩母函数特点- $M_X(0)=E[1]=1$
- 对于 $X\in[0, \infty]$, $\underset{s\rightarrow-\infty}{\lim}{M_X(s)}=P(X=0)$
 
- 独立随机变量和 sums of independent random variables \[M_Z(s)=E[e^{sX}e^{sY}]=M_X(s)M_Y(s)\]
 $X$, $Y$为独立随机变量, $Z=X+Y$- 泊松随机变量 $X\sim\lambda$, $Y\sim\mu$, $Z=X+Y$
 - 故 $Z\sim(\lambda+\mu)$ - 独立正态随机变量之和 $X\sim(\mu_x,\ \sigma_x^2)$, $Y\sim(\mu_y,\ \sigma_y^2)$, $Z=X+Y$
 - 故 $Z\sim(\mu_x+\mu_y,\ \sigma_x^2+\sigma_y^2)$ 
6. 随机多个相互独立随机变量之和$Y=X_1+\ldots+X_N$
\[\begin{gather*}E[Y]=E[X]E[N]\\ \operatorname{var}(Y)=\operatorname{var}(X)E[N]+E[X]^2\operatorname{var}(N)\end{gather*}\]极限理论
独立同分布的随机变量序列 $X_i\sim(\mu, \sigma^2)$
 $S_n=X_1+X_2+\ldots+X_n\sim(n\mu, n\sigma^2)$, $M_n=\frac{S_n}{n}\sim(\mu,\frac{\sigma^2}{n})$ 收敛, $Z_n=\dfrac{S_n-n\mu}{\sigma\sqrt n}\sim(0,1)$.
1. 马尔科夫不等式 Markov inequalities, 车比雪夫不等式 Chebyshev inequalities
- 马尔科夫不等式 \[a\int_a^b p(x)dx\le\int_a^b xp(x)dx\le\int_0^b xp(x)dx=E[X]\]
 非负随机变量取大值的概率会 (随着取值越大而) 越来越小.
 若随机变量 $X$ 只取非负值, 对任意 $a>0$, 有- 即 \[P(x\ge a)\le\frac{E[X]}{a}\]
- 车比雪夫不等式 \[P(|X-\mu|\ge c)\le\frac{\sigma^2}{c^2}\]
 随机变量远离均值的概率会 (随着取值越大而) 越来越小
 随机变量 $X\sim(\mu, \sigma^2)$, 对任意 $c>0$, 利用马尔科夫不等式 $Y=(X-\mu)^2$, 有
2. 弱大数定律 weak law of large numbers
对于充分大 $n$, $M_n$ 的分布大部分集中在 $\mu$ 附近.
 $X_1, X_2, \ldots$ 独立同分布, 公共分布均值 $\mu$, $M_n=\dfrac{1}{n}\displaystyle\sum_{i=1}^n X_i$, 对 $\forall\epsilon>0$, 当 $n\rightarrow\infty$ 有
通过弱大数定律可以得到, 频率是概率很好的估计.
 通过样本均值推算真值 (期望), 通过弱大数定律可以得到推算”准确”的概率.
3. 依概率收敛 convergence in probability
随机变量序列 $Y_1, Y_2,\ldots$ 对 $\forall\epsilon>0, \delta>0, \exists n_0$ 使得对 $\forall n\ge n_0$ 有
\[P(|Y_n-a|\ge\epsilon)\le\delta\]或
\[\underset{n\rightarrow\infty}\lim P(|Y_n-a|\ge\epsilon)=0\]则称 $Y_n$ 依概率收敛于 $a$. $\epsilon$ 为精度 accuracy level, $\delta$ 为置信水平 confidence level.
4. 中心极限定理 the central limit theorem
$X_1, X_2, \ldots$ 独立同分布, 公共分布均值 $\mu$, 方差 $\sigma^2$. $Z_n=\dfrac{S_n-n\mu}{\sigma\sqrt n}$. 当 $n$ 充分大, $Z_n$ 分布的极限分布为标准正态分布函数 $\Phi(x)=\dfrac{1}{\sqrt{2\pi}}\displaystyle\int_{-\infty}^x e^{-\frac{z^2}{2}}dz$. 即
\[\underset{n\rightarrow\infty}\lim P(Z_n\le x)=\Phi(x)\]大样本的独立随机变量序列和大致是正态的. 证明过程求 $Z_n$ 的矩母函数, 趋于无穷大后发现与正态概率函数的矩母函数一致.
- 二项分布的 De Moivre–Laplace 近似 \[P(k\le S_n\le l)\approx\Phi\left(\frac{l+\frac{1}{2}-np}{\sqrt{np(1-p)}}\right)-\Phi\left(\frac{k+\frac{1}{2}-np}{\sqrt{np(1-p)}}\right)\]
 二项分布 $S_n\sim(n,p)$ 可以看成 $n$ 个服从参数为 $p$ 的伯努利分布的独立随机变量和 $S_n=X_1+\ldots+X_n$. 应用中心极限定理, 当 $n$ 充分大, $k, l\in\mathbb{N}^+$, 有
5. 强大数定律 the strong law of large numbers
对于充分大 $n$, $M_n$ 的分布大部分集中在 $\mu$ 附近.
 $X_1, X_2, \ldots$ 独立同分布, 公共分布均值 $\mu$, $M_n=\frac{1}{n}\sum_{i=1}^n X_i$ 以概率 1 收敛于 $\mu$.
- strong vs weak law of large numbers
 弱大数定律: $M_n$ 依概率收敛于 $\mu$. 对 $\forall\epsilon>0$, $\underset{n\rightarrow\infty}\lim P(|M_n-\mu|\le\epsilon)=1$
 强大数定律: $M_n$ 以概率 1 收敛于 $\mu$. 对 $\forall\epsilon>0$, $P\left(\underset{n\rightarrow\infty}\lim |M_n-\mu|\le\epsilon\right)=1$
 弱大数定律: 对 $\forall\epsilon>0,\ \delta>0, \exists N\in\mathbb{N}^+$, 当 $n>N$ 时, $P(|M_n-\mu|\le\epsilon)\ge1-\delta$
 强大数定律: 对 $\forall\epsilon>0, \exists N\in\mathbb{N}^+$, 当 $n>N$ 时, $P(|M_n-\mu|\le\epsilon)=1, |M_n-\mu|\le\epsilon$
伯努利过程 Bernoulli processes 和泊松过程 Poisson processes
随机过程强调数据序列间的相关关系, 对长期均值感兴趣.
 两种随机过程:
- 到达过程 arrival-type processes, 相邻到达时间是相互独立的- 时间是离散的, 相邻时间服从几何分布, 伯努利过程
- 时间是连续的, 相邻时间服从指数分布, 泊松过程
 
- 马尔科夫过程, 未来的数据只依赖于当前的数据, 而与过去的数据无关.
1. 伯努利过程
相互独立的伯努利随机变量序列 $X_1, \ldots, X_n$
 对 $\forall i$, $P(X_i=1)=P(\textrm{第}i\textrm{次试验成功})=p$, $P(X_i=0)=1-p$
 感兴趣的是在一定时间内总到达次数,或者首次到达的时间.
- 随机变量及性质- $n$ 次相继独立的试验 trial 成功的总次数的分布: 二项分布 $S\sim(n,p)$ \[p_S(k)=\mathrm{C}_n^k p^k(1-p)^{n-k},\ k=0, 1, \ldots, n\]- $E[S]=np$, $\operatorname{var}(S)=np(1-p)$ 
- 相互独立重复的伯努利试验首次成功的时刻的分布: 几何分布 $T\sim p$ \[p_T(t)=p(1-p)^{t-1},\ t=1, 2, \ldots\]- $E[T]=\dfrac{1}{p},\ \operatorname{var}(T)=\dfrac{1-p}{p^2}$ 
 
- 独立性和无记忆性- 无记忆性 memorylessness: 无论过去发生了什么都不能对未来试验的结果提供任何信息, 是伯努利过程的独立性假设的条件.
 对任意给定的时刻 $n$, 随机变量序列 $X_{n+1},\ X_{n+2},\ \ldots$(过程的将来) 也是伯努利过程, 而且与 $X_1,\ldots,X_n$ (过程的过去) 独立.
- 重新开始 fresh-start property: 从任意一个时刻开始, 未来也可以用相同的伯努利过程来建模, 而且与过去相互独立.
 对任意给定的时刻 $n$, 令 $\bar T$ 是时刻 $n$ 之后首次成功的时刻, 则随机变量 $\bar T-n$ 服从参数为 $p$ 的几何分布, 且与随机变量 $X_1,\ldots,\ X_n$ 独立.
 
- 无记忆性 memorylessness: 无论过去发生了什么都不能对未来试验的结果提供任何信息, 是伯努利过程的独立性假设的条件.
- 相邻到达间隔时间 interarrival times
 第 $k$ 次到达所需的时间 $Y_k$, 第 $k$ 次到达与第 $k-1$ 次到达的间隔时间 $T_k=Y_k-Y_{k-1}$. $Y_1=T_1$ 为参数为 $p$ 的几何分布, $T_k$ 与 $T_{k-1}$ 独立且几何分布相同.
 伯努利过程相关的序列:- 相互独立, 参数为 $p$ 的几何分布随机变量序列 $T_1,\ T_2,\ldots$, 表示相邻到达时间间隔.
- 观测到达的时间为 $T_1,\ T_1+T_2,\ T_1+T_2+T_3,\ldots$
 
- 第 $k$ 次到达时间 \[p_{Y_k}(t)=\mathrm{C}_{t-1}^{k-1}p^k(1-p)^{t-k},\ t=k,\ k+1, \ldots\]
 $Y_k=T_1+T_2+\ldots+T_k$, $T_i$ 独立同分布, 服从参数为 $p$ 的几何分布
 $E[Y_k]=\dfrac{k}{p}$, $\operatorname{var}(Y_k)=\dfrac{k(1-p)}{p^2}$
 概率质量函数- 称为 $k$ 阶 Pascal 分布. 
- 二项分布的泊松近似
 $n$ 次独立的伯努利试验成功的次数为二项分布 $\sim(n,p)$, 期望为 $np$. 当 $n$ 充分大, $p$ 很小可以近似为泊松分布.- 泊松分布参数 $\lambda$, 随机变量 $Z$ 取非负整数 \[p_Z(k)=e^{-\lambda}\frac{\lambda^k}{k!},\ k=0,1,2,\ldots\]- $E[Z]=\lambda,\ \operatorname{var}(Z)=\lambda$ 
- 二项分布 \[p_S(k)=\frac{n!}{(n-k)!k!}\cdot p^k(1-p)^{n-k}\]- 在 $n\rightarrow\infty,\ p=\frac{\lambda}{n}$ 时收敛到 $p_Z(k)$ 
 
2. 泊松过程
- 强度为 $\lambda$ 的泊松过程
 $P(k,\tau)$ 表示在时间段长度为 $\tau$ 的时间内有 $k$ 个到达的概率- 时间同质性 time-homogeneity $k$ 次到达的概率 $P(k,\tau)$ 在相同长度 $\tau$ 的时间段内都是一样的. 到达在任何时候都是等可能的. 对应伯努利过程的假设: 对所有的试验成功的概率都是 $p$.
- 独立性 independence 一个特定时间段到达的数目与其他时间段内到达的历史是独立的. 对应伯努利过程的试验独立性.
- 小区间概率 small interval probabilities 概率 $P(k,\tau)$ 满足 \[\begin{align*}P(0,\tau)=&1-\lambda\tau+o(\tau)\\ P(1,\tau)=&\lambda\tau+o_1(\tau)\\ P(k,\tau)=&o_k(\tau),\ k=2,3\ldots\end{align*}\]- $o(\tau)$ 和 $o_k(\tau)$ 满足 $\underset{\tau\rightarrow0}\lim{\dfrac{o(\tau)}{\tau}}=0$. 
 
- 区间内到达次数 number of arrivals in an interval \[P(k,\tau)=e^{-\lambda\tau}\frac{(\lambda\tau)^k}{k!},\ k\in\mathbb{N}^0\]
 参考 1.5 二项分布的泊松近似, 将时间 $\tau$ 分为 $n$ 份, 每份到达的概率为 $\dfrac{\lambda\tau}{n}$. $n\rightarrow\infty$ 同时 $pn=\lambda\tau$ 为常数, 趋于参数为 $\lambda\tau$ 的泊松分布.- $N_\tau$ 为在长度为 $\tau$ 的时间段中到达的次数. $E[N_\tau]=\lambda\tau$, $\operatorname{var}(N_\tau)=\lambda\tau$. \[f_T(t)=\lambda e^{-\lambda t},\ t\ge0\]
 首次到达的时间为 $T$. $T>t$ 意味着在时间 $[0,t]$ 内没有一次到达.
 分布函数 $F_T(t)=1-P(T>t)=1-P(0,t)=1-e^{-\lambda t}$. 求导得到概率密度函数- 为服从参数为 $\lambda$ 的指数分布. 
- 随机变量及性质- 泊松过程的强度为 $\lambda$, 时间长度为 $\tau$ 的区间内到达的总次数的分布: 泊松分布 $N_\tau\sim\lambda\tau$ \[p_{N_\tau}(k)=P(k,\tau)=e^{-\lambda\tau}\frac{(\lambda\tau)^k}{k!},\ k\in\mathbb{N}^0\]- $E[N_\tau]=\lambda\tau,\ \operatorname{var}(N_\tau)=\lambda\tau$ 
- 首次到达的时间的分布: 指数分布 $T\sim\lambda$ \[f_T(t)=\lambda e^{-\lambda t},\ t\ge0\]- $E[T]=\frac{1}{\lambda},\ \operatorname{var}(T)=\frac{1}{\lambda^2}$ 
 
- 独立性和无记忆性- 独立性. 对任意给定的时间 $t>0$, 时间 $t$ 之后的过程也是泊松过程, 而且与时间 $t$ 之前 (包括时间 $t$) 的历史过程相互独立.
- 无记忆性. 对任意给定的时间 $t$, 令 $\bar T$ 是时间 $t$ 之后首次到达的时间, 则随机变量 $\bar T-t$ 服从参数为 $\lambda$ 的指数分布, 且与时间 $t$ 之前 (包括时间 $t$) 的历史过程相互独立.
 
- 相邻到达时间
 第 $k$ 次到达所需的时间 $Y_k$, 第 $k$ 次到达与第 $k-1$ 次到达的间隔时间 $T_k=Y_k-Y_{k-1}$. $Y_1=T_1$ 为参数为 $\lambda$ 的指数分布, $T_k$ 与 $T_{k-1}$ 独立且指数分布相同.
 泊松过程相关的序列:- 相互独立, 参数为 $\lambda$ 的指数分布随机变量序列 $T_1,\ T_2,\ldots$, 表示相邻到达时间间隔.
- 观测到达的时间为 $T_1,\ T_1+T_2,\ T_1+T_2+T_3,\ldots$
 
- 第 $k$ 次到达时间 \[f_{Y_k}(y)=\frac{\lambda^ky^{k-1}e^{-\lambda y}}{(k-1)!},\ y\ge0\]
 $Y_k=T_1+T_2+\ldots+T_k$, $T_i$ 独立同分布, 服从参数为 $\lambda$ 的指数分布
 $E[Y_k]=\frac{k}{\lambda}$, $\operatorname{var}(Y_k)=\frac{k}{\lambda^2}$
 概率质量函数- 称为 $k$ 阶 Erlang 分布. 
- 随机变量之和 - $X_i$ - $N$ - $Y$ - 伯努利分布 $X_i\sim p$ - 二项分布 $N\sim(m,q)$ - 二项分布 $Y\sim(m,pq)$ - 伯努利分布 $X_i\sim p$ - 泊松分布 $N\sim\lambda$ - 泊松分布 $Y\sim\lambda p$ - 几何分布 $X_i\sim p$ - 几何分布 $N\sim q$ - 几何分布 $Y\sim pq$ - 指数分布 $X_i\sim\lambda$ - 几何分布 $N\sim q$ - 指数分布 $Y\sim\lambda q$ - $N_t$ 是长度 $t$ 时间内强度 $\lambda$ 的泊松过程到达的总数目, $T$ 是服从参数为 $\nu$ 的指数分布的时间长度且与泊松过程独立. 则 $N_T+1$ 是几何分布, 参数为 $\dfrac{\nu}{\lambda+\nu}$. 
马尔科夫链 Markov chains
伯努利过程和泊松过程是无记忆性的, 未来的状态不依赖于过去的状态:新的“成功”或“到达”不依赖于该过程过去的历史.
 马尔科夫过程, 未来会依赖于过去,并且能够在某种程度上通过过去发生的情况预测未来.
1. 离散时间的马尔科夫链
$X_n$ 为时刻 $n$ 链的状态, $S$ 为所有可能状态组成的有限集合, 称状态空间 state space $S=\{1, \ldots, m\},\ m\in\mathbb{N}^+$.
 马尔科夫链由转移概率 transition probabilities $p_{ij}$ 描述: 当状态是 $i$ 时, 下一个状态等于 $j$ 的概率是 $p_{ij}$.
马尔科夫性质 Markov property: 下一个状态 $X_{n+1}$ 的概率分布只依赖于前一个状态 $X_n$
\[P(X_{n+1}=j|X_n=i,X_{n-1}=i_{n-1},\ldots,X_0=i_0)=P(X_{n+1}=j|X_n=i)=p_{ij}\]$p_{ij}\ge0$, 对 $\forall i,\ \sum_{j=1}^m p_{ij}=1$
- 马尔科夫模型的性质- 模型特征- 状态集合 $S=\{1, 2, \ldots, m\}$
- 可能发生状态转移 $(i,j)$ 的集合, 由所有 $p_{ij}>0$ 的 $(i,j)$ 组成
- $p_{ij}$ 为正的取值
 
- 马尔科夫链为该模型描述的随机变量序列 $X_0,\ X_1, \ldots$ 取值于 $S$, 满足对 $\forall n,\ \forall i,j\in S$, 所有之前可能的状态序列 $i_0, \ldots, i_{n-1}$, 有 $P(X_{n+1}=j\vert X_n=i,X_{n-1}=i_{n-1},\ldots,X_0=i_0)=p_{ij}$
 
- 模型特征
- 马尔科夫链表达- 转移概率矩阵 \[\left[\begin{matrix}p_{11}&p_{12}&\ldots&p_{1m}\\p_{21}&p_{22}&\ldots&p_{2m}\\\vdots&\vdots&\ddots&\vdots\\p_{m1}&p_{m2}&\ldots&p_{mm}\\\end{matrix}\right]\]
- 转移概率图 
 
- 路径的概率 \[P(X_0=i_0,\ X_1=i_1,\ \ldots,X_n=i_n)=P(X_0=i_0)p_{i_0i_1}p_{i_1i_2}\ldots p_{i_{n-1}i_n}\]
- $n$ 步转移概率 \[r_{ij}(n)=P(X_n=j|X_0=i)\]- Chapman-Kolmogorov 方程 \[\begin{gather*}r_{ij}(n)=\sum_{k=1}^m r_{ij}(n-1)p_{kj},\ \mathrm{for\ }\forall n>1,\ \forall i,j\\ r_{ij}(1)=p_{ij}\end{gather*}\]- 即 $\mathbf{R}(n)=\mathbf{P}^n$ 
2. 状态的分类
状态 $j$ 为从状态 $i$ 可达的 accessible: $\exists n,\ r_{ij}(n)>0$
 $A(i)$ 为所有从状态 $i$ 可达的状态集合
 状态 $i$ 是常返的 recurrent: $\forall j\in A(i),\ i\in A(j)$. 若常返态被访问一次, 则一定会能被回访无数次.
 状态 $i$ 是非常返的(瞬态) transient: $\exists j\in A(i),\ i\notin A(j)$. 瞬态只能被回访有限次.
- 常返态特点
 $i$ 是常返态, 则 $A(i)$ 为常返类 recurrent class, $A(i)$ 中所有状态相互可达, $A(i)$ 以外的状态不可以从这些状态可达. 即对 $\forall j\in A(i),\ A(i)=A(j)$
 一个马尔科夫链至少存在一个常返状态, 至少存在一个常返类.
- 分解
 一个马尔可夫链的状态集合可以分解成一个或多个常返类, 加上可能的一些非常返状态.
 一个常返态从它所属的类里任何一个状态出发是可达的, 但从其他类里的常返状态出发是不可达的.
 从任何一个常返状态出发都不可到达非常返状态.
 从一个非常返状态出发, 至少有一个 (可能有更多个) 常返态是可达的.
- 周期
 称一个常返类是有周期的 periodic, 如果它的状态能被分成 $d>1$ 个相互不相交的子集 $S_1,\ldots,S_d$, 且满足所有的转移都是从一个这样的子集到下一个.
 令 $S_1=S_{d+1}$. 若 $i\in S_k$ 且 $p_{ij}>0$, 则 $j\in S_{k+1}$.
 否则称常返类非周期 aperiodic.
 对于有周期的返常类, $\forall n, i,\ \exists j,\ r_{ij}(n)=0$
 非周期的返常类 $R: \exists n$, 对 $\forall i,j\in R,\ r_{ij}(n)>0$. 选定初始态 $i$, 每个状态 $j$ 都可以在确定的 $m$ 步到达.
3. 稳态 steady-state 性质
- 稳态概率 steady-state probability \[\pi_j\approx P(X_n=j),\ \mathrm{when\ }n\mathrm{\ is\ large}\]
 排除多个返常类和有周期的类, 对于每个状态 $j$, 处于状态 $j$ 的概率 $r_{ij}(n)$ 趋于一个独立于初始状态 $i$ 的极限值 $\pi_j$ 称为稳态概率.
- 稳态收敛原理 steady-state convergence theorem
 对于一个非周期的、单个返常类的马尔科夫链, 状态 $j$ 和它对应的稳态概率 $\pi_j$ 具有如下性质- 对于每个 $j$, 对 $\forall i$, 有 \[\underset{n\rightarrow\infty}\lim r_{ij}(n)=\pi_j\]
- $\pi_j$ 是下面方程组的唯一解 \[\begin{gather}\pi_j=\sum_{k=1}^m\pi_kp_{kj},\ j=1,\ldots,m\label{eq:7.3.2.2.1}\\ 1=\sum_{k=1}^m\pi_k\label{eq:7.3.2.2.2}\end{gather}\]
- 对所有非返常状态 $j,\ \pi_j=0$; 对所有返常状态 $j,\ \pi_j>0$. 
 稳态概率在状态空间中的概率分布称为链的平稳分布 stationary distribution. \[\left[\begin{matrix}p_{11}-1&p_{21}&\cdots&p_{m1}\\p_{12}&p_{22}-1&\cdots&p_{m2}\\\vdots&\vdots&\ddots&\vdots\\p_{1m}&p_{2m}&\cdots&p_{mm}-1\\1&1&\cdots&1\\\end{matrix}\right]_{(m+1)\times m}\left[\begin{matrix}\pi_1\\\pi_2\\\vdots\\\pi_m\\\end{matrix}\right]_{m\times1}=\left[\begin{matrix}0\\\vdots\\0\\1\\\end{matrix}\right]_{(m+1)\times1}\]
 \eqref{eq:7.3.2.2.1} 式可以由 C-K 方程取极限得到, 称为平衡方程组 balance equations.
 3.2.2 的平衡方程组\eqref{eq:7.3.2.2.1} + 归一化方程\eqref{eq:7.3.2.2.2}得到线性方程组根据 Perron–Frobenius theorem, 平衡方程组总有非负解; 非周期单返常类的马尔科夫链结合归一化方程总有非负唯一解. 
- 长期频率解释- 稳态概率~期望频率 steady-state probabilities as expected state frequencies \[\pi_j=\underset{n\rightarrow\infty}\lim{\frac{\nu_{ij}(n)}{n}}\]
 对于非周期单返常类的马尔科夫链, 状态的稳态概率 $\pi_j$ 满足- $\nu_{ij}(n)$ 表示从状态 $i$ 出发, 在 $n$ 次转移中到达 $j$ 的总次数的期望值. $\pi_j$ 也可以看做是状态 $j$ 的长期期望频率. 
- 特定转移的期望频率 expected frequency of a particular transition \[\underset{n\rightarrow\infty}\lim\frac{q_{jk}(n)}{n}=\pi_j p_{jk}\]
 非周期单返常类的马尔科夫链, $q_{jk}(n)$ 为在时间 $n$ 内, 从状态 $j$ 到状态 $k$ 的转移期望次数, 则有- 这两个概念可以用来理解平衡方程组. 
 
- 生灭过程 birth-death processes \[\pi_ib_i=\pi_{i+1}d_{i+1}\quad i=0,1,\ldots,m-1\]
 线性排列的马尔科夫链, 状态空间 $0,1,\ldots,m$, 转移只发生在相邻状态之间, 或保持不变.
 在状态 $i$ 生的概率 $b_i=P(X_{n+1}=i+1\vert X_n=i)$
 在状态 $i$ 灭的概率 $d_i=P(X_{n+1}=i-1\vert X_n=i)$
 局部平衡方程组- 结合归一化方程 $\displaystyle\sum_i\pi_i=1$ 得到各个状态的稳态概率. 
4. 吸收 absorption 概率和吸收的期望时间
到达常返态后就无法离开, 可以认为每个常返态是吸收的, 称为吸收态 absorbing state
\[p_{kk}=1,\ p_{kj}=0\ \mathrm{for\ all\ }j\ne k\]有多个吸收态时, 吸收概率 $a_i$ 表示链从状态 $i$ 开始最终达到吸收态 $s$ 的概率
\[a_i=P(X_n\textrm{最终等于吸收态}s|X_0=i)\]- 吸收概率方程组 \[\begin{align*}a_s&=1\\ a_i&=\begin{cases}0&, \textrm{for all absorbing }i\ne s\\ \displaystyle\sum_{j=1}^m p_{ij}a_j&, \textrm{for all transient }i\end{cases}\end{align*}\]
 固定吸收态 $s$, 吸收概率 $a_i$- 吸收概率方程组有解且唯一. 
- 平均吸收时间 expected time to absorption \[\mu_i=E[\textrm{从状态}i\textrm{开始, 直到达到吸收态所需步数}]=E[\min\{n≥0|X_n\textrm{是常返态}\}|X_0=i]\]- 平均吸收时间方程组 \[\mu_i=\begin{cases}0&, \textrm{对所有常返态 }i\\ 1+\displaystyle\sum_{j=1}^m p_{ij}\mu_j&, \textrm{对所有瞬态 }i\end{cases}\]
 $\mu_1,\ldots\mu_m$ 是下列方程组的唯一解
- 访问次数期望 \[\mathbf{P}=\begin{bmatrix}\mathbf{Q}&\mathbf{R}\\0&\mathbf{I}\end{bmatrix}\]
 对于一个有吸收态和瞬态的吸收马尔科夫链, 可以把转移矩阵 $P$ 写成:- 其中 $\mathbf{Q}$ 是瞬态之间的转移矩阵, $\mathbf{R}$ 是瞬态到吸收态的转移矩阵, $\mathbf{I}$ 是吸收态之间的转移矩阵, 0表示吸收态不会回到瞬态. \[\mathbf{N}=\mathbf{I}+\mathbf{Q}+\mathbf{Q}^2+\cdots=(\mathbf{I}-\mathbf{Q})^{-1}\]
 对于瞬态, 初始状态 $i$, $n$ 步之后到达状态 $j$ 的概率矩阵为 $\mathbf{Q}^n$. 那么在被吸收之前, 初始状态 $i$, 状态 $j$ 被访问次数的期望 可以看作是 初始状态 $i$, 第 $k$ 步访问到状态 $j$ 的概率之和, 即把从初始到吸收当作一个单元进行求和, 转换为把每一步当作一个单元进行求和, 称为基本矩阵- 那么被吸收前的期望步数则为基本矩阵的行和. 被特定吸收态吸收的概率 $\mathbf{B}=\mathbf{N}\mathbf{R}$, 暂态 $j$ 被访问多次, 每次都有一定概率进入吸收态 $k$, 因此是两个矩阵之积. 
 
- 平均首访时间及回访时间 \[t_i=E[\textrm{从状态}i\textrm{开始, 首次到达状态}s\textrm{的转移步数}]=E[\min\{n≥0|X_n=s\}|X_0=i]\]
 只有单个常返类的马尔科夫链, 对特定的常返态 $s$, 从状态 $i$ 到状态 $s$ 的平均首访时间- 则有线性方程组 \[\begin{align*}&t_i=1+\sum_{j=1}^m p_{ij}t_j,\ \mathrm{for\ all\ }i\ne s\\ &t_s=0\end{align*}\]- 平均回访时间 \[\begin{gather*}t_s^\star=E[\textrm{从状态}s\textrm{开始, 首次回到状态}s\textrm{的转移步数}]=E[\min\{n≥1|X_n=s\}|X_0=s]\\ t_s^\star=1+\sum_{j=1}^m p_{sj}t_j\end{gather*}\]
5. 连续时间的马尔科夫链 continuous-time Markov chains
连续时间过程, 它按照一定的转移概率从一个状态转移到下一个状态, 同时两次转移之间的时间是一个连续随机变量.
 涉及到的随机变量
 $X_n$: 第 $n$ 次转移后的状态. $X_0$ 为初始状态
 $Y_n$: 第 $n$ 次转移的时间. $Y_0=0$
 $T_n$: 第 $n-1$ 次转移和第 $n$ 次转移的间隔时间
- 连续时间马尔科夫链的假设及相关定义- 如果当前状态是 $i$, 到下一个转移的时间服从已给参数 $\nu_i$ 的指数分布, 且独立于之前的历史过程和下一个状态.
- 如果当前状态是 $i$, 按照给定的概率 $p_{ij}$ 到达下一个状态 $j$, 而且独立于之前的历史过程和转移到下一个状态的时间间隔. 状态序列在经过依次转移后成为离散时间的马尔科夫链, 转移概率是 $p_{ij}$, 称为嵌入的 embedded 马尔科夫链.
 对于直到第 $n$ 次转移发生之前链所有发生的事件 $A=\{T_1=t_1, \ldots,T_n=t_n,\ X_0=i_0,\ldots,X_{n-1}=i_{n-1},\ X_n=i\}$, 第 $n+1$ 次转移至状态 $j$ 且转移时间 $\ge t$ 的概率 \[\begin{align*}P(X_{n+1}=j,\ T_{n+1}\ge t|A)=&P(X_{n+1}=j,\ T_{n+1}\ge t|X_n=i)\\ =&P(X_{n+1}=j|X_n=i)P(T_{n+1}\ge t|X_n=i)\\ =&p_{ij}e_i^{-\nu_it}\end{align*}\]到下一个转移的平均时间 \[E[T_{n+1}|X_n=i]=\int_0^\infty \tau\nu_ie^{-\nu_i\tau}d\tau=\frac{1}{\nu_i}\]参数 $\nu_i$ 可以看做停留在状态 $i$ 的单位时间里转移出去的平均转移次数, 也称跳出状态 $i$ 的转移速率 transition rate out of state $i$. 
 从状态 $i$ 到 $j$ 的转移速率 transition rate from $i$ to $j$: $q_{ij}=\nu_ip_{ij}$. 反之 $\nu_i=\sum_{j=1}^m q_{ij}$.
 忽略自身转移, 假设 $p_{ii}=q_{ii}=0$.
- 离散时间马尔科夫链的近似 \[\bar p_{ij}=P(Z_{n+1}=j|Z_n=i)=\nu_ip_{ij}\delta+o(\delta)=q_{ij}\delta+o(\delta),\ \mathrm{if\ }j\ne i\]
 取小正数 $\delta$, 考虑离散时间马尔科夫链 $Z_n=X(n\delta)$. $\bar p_{ij}$ 为 $Z_n$ 的转移概率. 时刻 $n\delta$ 和 $(n+1)\delta$ 之间发生转移的概率近似为 $\nu_i\delta$, 概率 $p_{ij}$ 表示 $i$ 转移到状态 $j$.- 停留在状态 $i$ 的概率为 $\bar p_{ii}=P(Z_{n+1}=i|Z_n=i)=1-\sum_j\bar p_{ij}$. 
 连续马尔科夫链的另一种描述
 给定连续时间马尔科夫链的当前状态 $i$, 对于任何 $j\ne i$, 单位时间 $\delta$ 之后的状态是 $j$ 的概率是 $q_{ij}\delta+o(\delta)$, 且独立于过程过去的情况.
- 稳态性质 \[\pi_j\sum_{k\ne j} q_{jk}=\sum_{k\ne j} \pi_k q_{kj}\]
 研究对应的离散时间马尔科夫链 $Z_n$ 的稳态概率, 假定 $Z_n$ 只有一个返常类, $Z_n$ 一定是非周期的, 因为具有非零自身转移频率的链总是非周期的.
 $\pi_j=\sum_{k=1}^m\pi_k\bar p_{kj}$ 展开可以得到平衡方程组- 稳态收敛定理
 考虑具有单个常返类的连续时间马尔科夫链, 状态 $j$ 及对应的稳态频率 $\pi_j$ 具有如下性质- 对 $\forall j$, 有 \[\underset{t\rightarrow\infty}\lim P(X(t)=j|X(0)=i)=\pi_j, \mathrm{ for\ all\ }i\]
- $\pi_j$是方程组的唯一解 \[\begin{align*}\pi_j\sum_{k\ne j} q_{jk}&=\sum_{k\ne j} \pi_k q_{kj}, j=1, ldots, m\\ 1&=\sum_{k=1}^m\pi_k\end{align*}\]
- 对于所有瞬态 $j$, $\pi_j=0$; 对于所有常返态 $j$, $\pi_j>0$. 
 $\pi_j$ 可以看成过程花费在状态 $j$ 上的时间的平均长期频率
 $\pi_k q_{kj}$ 可以看成从 $k$ 到 $j$ 的转移的平均频率, 或单位时间内的平均次数.
 平衡方程组可以理解为: 从状态 $j$ 开始的转移的频率等于进入状态 $j$ 的转移的频率.
 
 
- 稳态收敛定理
- 生灭过程
 生灭过程线性排列, 转移只发生在相邻状态, $q_{ij}=0$, 当 $|i-j|>1$.
 局部平衡方程组: $\forall i, j,\ \pi_j q_{ji}=\pi_iq_{ij}$.
 从而推出稳态概率公式.
贝叶斯统计推断 Bayesian statistical inference
统计推断是从观测数据推断未知变量或模型的有关信息的过程.
 如何看待位置模型或变量
- 贝叶斯统计推断: 将其看成是已知分布的随机变量
 对未知模型推断, 该模型是随机地从已知的一类模型中选出来的, 用随机变量 $\Theta$ 表示, 构造先验概率分布 $p_\Theta(\theta)$. 在已知数据 $x$ 的情况下, 使用贝叶斯公式推导后验概率分布 $p_{(\Theta\vert X)}(\theta\vert x)$.
 描述模型的变量 $\theta$ 的可能性也服从某个分布函数.
- 经典统计推断: 将其看成未知的待估计的量
 将 $\theta$ 视为常数. 经典统计的目标是提出参数 $\theta$ 的估计方法, 并保证具有一些性质. 经典方法处理的不是一个概率模型, 而是有多个待选的概率模型,每个标记为 $\theta$ 的一个可能值.
 描述模型的变量 $\theta$ 的可能性是均匀的, 为一个常量.
1. 贝叶斯推断与后验分布
- 贝叶斯推断- 总结- 起点是未知随机变量 $\Theta$ 的先验分布 $p_\Theta$ 或 $f_\Theta$
 先验概率的意思是我们基于历史观测数据和经验对 $\Theta$ 的大致认识
- 得到观测向量 $X$ 的条件分布 $p_{(X\vert\Theta)}$ 或 $f_{(X\vert\Theta)}$
- $X$ 的特定值 $x$ 观测到后, 运用贝叶斯法则计算 $\Theta$ 的后验分布 $p_{(\Theta\vert X)}$ 或 $f_{(\Theta\vert X)}$
 
- 起点是未知随机变量 $\Theta$ 的先验分布 $p_\Theta$ 或 $f_\Theta$
- 四种形式 - \(\quad X\) 
 \(\Theta\quad\)- 离散 
 $$\frac{p_{(X\vert\Theta)}(x\vert\theta)}{p_{(X\vert\Theta)}(x\vert\theta^\prime)}$$- 连续 
 $$\frac{f_{(X\vert\Theta)}(x\vert\theta)}{f_{(X\vert\Theta)}(x\vert\theta^\prime)}$$- 离散 
 $$p_{(\Theta\vert X)}(\theta\vert x)=\frac{p_\Theta(\theta)}{\sum_{\theta^\prime}p_\Theta(\theta^\prime)}$$- \(\color{orange}p_{(\Theta\vert X)}(\theta\vert x)=\frac{p_\Theta(\theta)\textcolor{royalblue}{p_{(X\vert\Theta)}(x\vert\theta)}}{\sum_{\theta^\prime}p_\Theta(\theta^\prime)\textcolor{royalblue}{p_{(X\vert\Theta)}(x\vert\theta^\prime)}}\) - \(\color{orange}p_{(\Theta\vert X)}(\theta\vert x)=\frac{p_\Theta(\theta)\textcolor{royalblue}{f_{(X\vert\Theta)}(x\vert\theta)}}{\sum_{\theta^\prime}p_\Theta(\theta^\prime)\textcolor{royalblue}{f_{(X\vert\Theta)}(x\vert\theta^\prime)}}\) - 连续 
 $$f_{(\Theta\vert X)}(\theta\vert x)=\frac{f_\Theta(\theta)}{\int d\theta^\prime f_\Theta(\theta^\prime)}$$- \(\color{orange}f_{(\Theta\vert X)}(\theta\vert x)=\frac{f_\Theta(\theta)\textcolor{royalblue}{p_{(X\vert\Theta)}(x\vert\theta)}}{\int d\theta^\prime f_\Theta(\theta^\prime)\textcolor{royalblue}{p_{(X\vert\Theta)}(x\vert\theta^\prime)}}\) - \(\color{orange}f_{(\Theta\vert X)}(\theta\vert x)=\frac{f_\Theta(\theta)\textcolor{royalblue}{f_{(X\vert\Theta)}(x\vert\theta)}}{\int d\theta^\prime f_\Theta(\theta^\prime)\textcolor{royalblue}{f_{(X\vert\Theta)}(x\vert\theta^\prime)}}\) 
 
- 总结
2. 点估计, 假设检验, 最大后验概率准则
- 最大后验概率 maximum a posteriori probability, MAP 准则 rule \[\begin{gather*}\max{p_{(\Theta|X)}(\theta|x)}=p_{(\Theta|X)}(\hat\theta|x)\\ \max{f_{(\Theta|X)}(\theta|x)}=f_{(\Theta|X)}(\hat\theta|x)\end{gather*}\]
 给定观测值 $x$, 选择 $\theta$ 的一个取值 $\hat\theta$, 使得后验概率质量函数 $p_{(\Theta|X)}(\theta|x)$ 或后验概率密度函数 $f_{(\Theta|X)}(\theta| x)$ 达到最大.- 即 1.1.2 中的分子部分. 
 当 $\Theta$ 是离散型变量, $\hat\theta$ 是 $\Theta$ 最有可能的取值, 使对任意给定的 $x$ 有最大的概率做出正确的决定. MAP rule 使总体 (平均了所有 $x$ 可能的取值) 做出正确决定的概率达到最大 (在所有决策准则中). MAP rule 使做出错误决定的概率达到最小.
- 点估计 point estimation
 点估计是一个数值,它表达了我们关于 $\Theta$ 取值的最好猜测.
 估计值 estimate 指的是在得到实际观察值 x 的基础上我们选择的 $\theta$ 的数值. $\hat\theta$ 的数值是由观测值 $x$ 的某些函数 $g$ 决定的, 即 $\hat\theta=g(x)$. 随机变量 $\hat\Theta=g(X)$ 称为估计量 estimator.- MAP 估计量, 使后验分布达到最大的 $\hat\theta$- 若 $\Theta$ 的后验分布关于 (条件) 均值对称并单峰, 最大值在均值处取到, 则 MAP 估计量和条件期望估计量相同.
- 若 $\Theta$ 是连续型变量, 求极值可以求导或数值求解.
 
- 条件期望估计量, $\hat\theta=E[\Theta|X=x]$
 最小均方 least mean squares, LMS 估计, 在所有估计量中使均方误差达到最小
 
- MAP 估计量, 使后验分布达到最大的 $\hat\theta$
- 假设检验 hypothesis testing
 在一个假设检验问题中, $\Theta$ 取 $\theta_1,\ldots,\theta_m$ 中的一个值, $m=2$ 为二重 binary 假设检验问题. 称事件 $\{\Theta=\theta_i\}$ 为第 $i$ 个假设, 记为 $H_i$.- 假设检验的最大后验概率准则 MAP rule \[\begin{gather*}P(\Theta=g_\mathrm{MAP}(x)|X=x)\\ S_i=\{x|\theta_i=g_\mathrm{MAP}(x)\}\end{gather*}\]
 根据观测值 $x$ 选出后验概率最大的假设, 即是使 $p_\Theta(\theta_i)p_{(X|\Theta)}(x|\theta)$($X$ 离散) 或 $p_\Theta(\theta_i)f_{(X|\Theta)}(x|\theta)$($X$ 连续) 达到最大的假设 $H_i$.对任意观测值 $x$, MAP rule 使得选出错误假设的概率最小, 也即犯错的概率最小.
 $g_{\mathrm{MAP}}(x)$ 为 MAP rule 在 $X=x$ 的情况下选出的假设, 做出正确决策的概率为- 则做出正确决策的总概率为, 全概率定理 \[P(\Theta=g_\mathrm{MAP}(X))=\sum_i P(\Theta=\theta_i, X\in S_i)\]- 犯错误的概率是 \[\sum_i P(\Theta\ne\theta_i, X\in S_i)\]
 
3. 贝叶斯最小均方估计
Bayesian least mean squares estimation
- LMS 估计的求解方法- 在没有观测值 $X$ 时, 当估计量 $\hat\theta=E[\Theta]$, 估计量的均方误差 $E[(\Theta-\hat\theta)^2]=\operatorname{var}(\Theta)+(E[\Theta]-\hat\theta)^2$ 达到最小值.
- 在有观测值 $X=x$ 时, 当估计量 $\hat\theta=g(X)=E[\Theta\vert X=x]$, 条件均方误差 $E[(\Theta-\hat\theta)^2\vert X=x]$ 达到最小值. 条件期望用 $f_{(\Theta\vert X)}(\theta\vert x)$ 求出.
- 在所有基于 $X$ 的 $\Theta$ 估计量 $g(X)$ 中, 当 $g(X)=E[\Theta\vert X]$ 时均方估计误差 $E[(\Theta-g(X))^2]$ 达到最小.
 
- LMS 估计误差的性质
 最小均方估计 $\hat\Theta=E[\Theta|X]$, 相应估计误差 $\widetilde\Theta=\hat\Theta-\Theta$.- 估计误差 $\widetilde\Theta$ 是无偏的 unbiased, 它的条件期望 $E[\widetilde\Theta]=0$, 非条件期望 $\forall x,\ E[\widetilde\Theta\vert X=x]=0$
- 估计误差 $\widetilde\Theta$ 和估计量 $\hat\Theta$ 是不相关的. $\mathrm{cov}(\hat\Theta, \widetilde\Theta)=0$
- $\Theta$ 的方差可以分解为 $\operatorname{var}(\Theta)=\operatorname{var}(\hat\Theta)+\operatorname{var}(\widetilde\Theta)$
 当 $\hat\Theta=E[\Theta]$ 时, $\hat\Theta$ 为常数, $\operatorname{var}(\hat\Theta)=0$, $\operatorname{var}(\Theta)=\operatorname{var}(\widetilde\Theta)$, 称观测 $X$ 是无信息 uninformative 的. 
4. 贝叶斯线性最小均方估计
基于观测 $X_1, \ldots, X_n$ 的 $\Theta$ 的线性估计量形式为 $\hat\Theta=a_1 X_1+\ldots+a_n X_n+b$.
- 一次观测的线性最小均方估计
 $n=1,\ \hat\Theta=aX+b$.- 基于 $X$ 的 $\Theta$ 的线性最小均方估计 $\hat\Theta$ 是 \[\hat\Theta=E[\Theta]+\frac{\mathrm{cov}(\Theta,X)}{\operatorname{var}(X)}(X-E[X])=E[\Theta]+\rho\frac{\sigma_\Theta}{\sigma_X}(X-E[X])\]- 其中 $\rho=\dfrac{\mathrm{cov}(\Theta,X)}{\sigma_\Theta\sigma_X}$ 为相关系数 correlation coefficient. 
- 均方估计误差为 $(1-\rho^2)\sigma_\Theta^2$. 
 估计量以 $\Theta$ 的基本估计 $E[\Theta]$ 为基础, 通过 $X-E[X]$ 的取值来调整.
 
- 多次观测和多参数情形- 对于多参数 $\Theta_i$, 考虑准则 $E[(\Theta_1-\hat\Theta_1)^2]+\ldots+E[(\Theta_m-\hat\Theta_m)^2]$, 使其在所有估计量 $\hat\Theta_1, \ldots, \hat\Theta_m$ 都是观测值的线性函数的情况下达到最小. 这与寻找每个 $\hat\Theta_i$ 使得 $E[(\Theta_i-\hat\Theta_i)^2]$ 达到最小是等价的.
- 对于多次观测且相互独立情形, 单参数的公式可简化. $\Theta$ 是均值为 $\mu$ 方差为 $\sigma_0^2$ 的随机变量, $X_1,\ldots X_n$ 是具有 $X_i=\Theta+W_i$ 形式的多次观测, 其中观测误差 $W_i$ 是均值为 $0$ 方差为 $\sigma_i^2$ 的随机变量. 假设 $\Theta,\ W_1, \ldots, W_n$ 互不相关, 则基于观测值 $X_1, \ldots, X_n$ 的 $\Theta$ 的线性最小均方估计量是 \[\hat\Theta=\frac{\frac{\mu}{\sigma_0^2}+\sum_{i=1}^n\frac{X_i}{\sigma_i^2}}{\sum_{i=0}^n\frac{1}\sigma_i^2}\]- 方法是求 $E[(\Theta-a_1 X_1-\ldots-a_n X_n-b)^2]$ 的最小值. 
 
- 线性估计和正态模型
 $\Theta$ 是正态随机变量, 观测值是 $X_i=\Theta+W_i$, 其中 $W_i$ 是独立零均值的正态噪声, 与 $\Theta$ 独立. 则最小均方估计量和线性最小均方估计量一致.
 若 $\Theta,\ X_1, \ldots, X_n$ 都是独立正态随机变量的线性函数, 则最小均方估计, 线性最小均方估计, 最大后验概率估计都是一致的.
经典统计推断 classical statistical inference
利用贝叶斯方法进行统计推断, 将未知参数 $\theta$ 看成随机变量, 是完全确定的概率模型,并能够利用贝叶斯准则对它们进行推导和计算.
 经典统计推断认为未知参数 $\theta$ 是确定的 (非随机) 而取值未知. 观测 $X$ 是随机的, 根据 $\theta$ 取值的不同, 服从 $p_X(x;\theta)$(若 X 是离散的) 或 $f_X(x;\theta)$(若 X 是连续的). 对于未知参数 $\theta$ 的每个可能取值都假设一个单独的概率模型.
1. 经典参数估计 classical parameter estimation
- 估计量的性质
 给定观测 $X=(X_1, X_2, \ldots, X_n)$, 估计量 estimator 为随机变量 $\hat\Theta_n=g(X)$, 分布依赖于 $\theta$. $\hat\Theta_n$ 的取值为估计值 estimate.- 估计误差 estimation error $\widetilde\Theta_n=\hat\Theta_n-\theta$, 一般非零
- 估计量的偏差 bias $b_\theta(\hat\Theta_n)=E_\theta[\hat\Theta_n]-\theta$
- $\hat\Theta_n$ 的期望值, 方差, 偏差依赖于 $\theta$, 估计误差同时依赖于观测 $X_1, \ldots, X_n$.
- $\hat\Theta_n$ 无偏 unbiased, 当对 $\forall\theta$, $E_\theta[\hat\Theta_n]=\theta$
- $\hat\Theta_n$ 渐近无偏 asymptotically unbiased, 当对 $\forall\theta,\ \underset{n\rightarrow\infty}\lim E_\theta[\hat\Theta_n]=\theta$
- $\hat\Theta_n$ 为 $\theta$ 的相合 consistent 估计序列, 当对 $\forall\theta$, 序列 $\hat\Theta_n$ 依概率收敛到参数 $\theta$ 的真值. \[E_\theta[\widetilde\Theta_n^2]=b_\theta^2(\hat\Theta_n)+\operatorname{var}_\theta(\hat\Theta_n)\]
 
- 最大似然估计 maximum likelihood estimation \[\begin{align*}\max{p_X(x_1,\ldots,x_n;\theta)}=p_X(x_1,\ldots,x_n;\hat\theta_n)\\ \max{f_X(x_1,\ldots,x_n;\theta)}=f_X(x_1,\ldots,x_n;\hat\theta_n)\end{align*}\]
 观测量 $X=(X_1, \ldots, X_n)$ 的联合概率质量函数 $p_X(x;\theta)=p_X(x_1,\ldots,x_n;\theta)$($X$ 为离散变量) 或联合概率密度函数 $f(x;\theta)$($X$ 为连续变量). 最大似然估计 ML estimate 是使 $\theta$ 的数值函数 $p_X(x_1,\ldots,x_n;\theta)$ 达到最大的参数值. 此时观测量给定, 质量函数只是 $\theta$ 的函数了.- 称 $p_X(x;\theta)$ 或 $f_X(x;\theta)$ 为似然函数 likelihood function, 表示当参数取值为 $\theta$ 时, 观测值 x 可能出现的概率. \[\begin{align*}\ln{p_X(x_1,\ldots,x_n;\theta)}=\sum_{i=1}^n\ln{p_{X_i}(x_i;\theta)}\\ \ln{f_X(x_1,\ldots,x_n;\theta)}=\sum_{i=1}^n\ln{f_{X_i}(x_i;\theta)}\end{align*}\]
 若 $X_i$ 相互独立, $p_X(x_1,\ldots,\ x_n;\theta)=\prod_{i=1}^n{p_{X_i}(x_i;\theta)}$, 可以求对数似然函数 log-likelihood function 的极值- 贝叶斯最大后验概率估计: $p_\Theta(\theta)p_{(X\vert\Theta)(x\vert\theta)}$ 找到最大值时的 $\theta$ 
 最大似然估计: 均匀先验 ($p_\Theta(\theta)=c$) 的最大后验概率估计.- 性质- 不变原理 invariance principle
 若 $\hat\Theta_n$ 是 $\theta$ 的最大似然估计, 则 $h(\hat\Theta_n)$ 是 $h(\theta)$ 的最大似然估计.
- 渐进正态 asymptotic normality
 当 $\theta$ 是标量参数时, $\dfrac{\hat\Theta_n-\theta}{\sigma(\hat\Theta_n)}$ 的分布接近标准正态分布, 其中 $\sigma^2(\hat\Theta_n)$ 是 $\hat\Theta_n$ 的方差; 当 $\theta$ 是向量参数, 针对每个分量可以得到类似的结论.
 
- 不变原理 invariance principle
 
- 性质
- 随机变量均值和方差的估计
 观测值 $X_1, \ldots, X_n$ 是独立同分布的, 均值 $\theta$ 和方差 $v$ 均未知.
 样本均值 $M_n=\dfrac{X_1+\ldots+X_n}{n}$ 是 $\theta$ 的一个无偏估计量, 均方误差是 $\dfrac{v}{n}$.
 方差的估计量有两个 $\bar S_n^2=\frac{1}{n}\sum_{i=1}^n(X_i-M_n)^2,\ \hat S_n^2=\frac{1}{n-1}\sum_{i=1}^n(X_i-M_n)^2$
 当 $X_i$ 服从正态分布, 估计量 $\bar S_n^2$ 和最大似然估计量相等, 有偏差但渐近无偏; $\hat S_n^2$ 无偏. 当 $n$ 很大时两个方差估计量是一致的.
- 置信区间 confidence intervals \[P_\theta(\hat\Theta_n^-\le\theta\le\hat\Theta_n^+)\ge1-\alpha\]
 对于一维的确定的未知参数 $\theta$, 其置信区间是一个很高概率包含 $\theta$ 的区间, 端点为 $\hat\Theta_n^-, \hat\Theta_n^+$. $\hat\Theta_n^-, \hat\Theta_n^+$ 是依赖于观测 $X_1, \ldots, X_n$ 的随机变量. $1-\alpha$ 置信区间对 $\theta$ 所有可能的取值满足- $1-\alpha$ 称为置信水平 confidence level. 
 在很多重要模型中 $\hat\Theta_n-\theta$ 的分布是渐近正态无偏的, 即随机变量 $\dfrac{\hat\Theta_n-\theta}{\sqrt{\operatorname{var}_\theta(\hat\Theta_n)}}$ 的概率分布函数在 $n$ 增加时趋于标准正态分布函数 (对于 $\theta$ 所有可能的取值).
 若 $\hat\Theta_n$ 为观测值的平均数, 则置信水平为 $1-\alpha$ 对应的置信区间为 $[\hat\Theta_n-\sigma\Phi^{-1}(1-\dfrac{\alpha}{2}),\ \hat\Theta_n+\sigma\Phi^{-1}(1-\dfrac{\alpha}{2})]$.
- 基于方差近似估计量的置信区间
 观测 $X_i$ 是独立同分布 independent identically distributed, IID, 均值 $\theta$ 方差 $v$ 均未知. 用样本均值 $\hat\Theta_n=\frac{1}{n}\sum X_i$ 估计 $\theta$, 无偏估计量 $\hat S_n^2=\frac{1}{n-1}\sum(X_i-\hat\Theta_n)^2$ 估计 $v$. $\dfrac{\hat S_n^2}{n}$ 估计样本均值的方差 $\dfrac{v}{n}$. 则置信水平为 $1-\alpha$ 对应的置信区间为 $[\hat\Theta_n-\dfrac{\hat S_n}{\sqrt n}\Psi_{n-1}^{-1}(1-\dfrac{\alpha}{2}),\ \hat\Theta_n+\dfrac{\hat S_n}{\sqrt n}\Psi_{n-1}^{-1}(1-\dfrac{\alpha}{2})]$.
 随机变量 $T_n=\dfrac{\sqrt n(\hat\Theta_n-\theta)}{\hat S_n}$ 不是正态的, 称为自由度为 $n-1$ 的 $t$- 分布. 分布函数为 $\Psi_{n-1}(z)$.
2. 线性回归 linear regression
给定 $n$ 个数据对 $(x_i,\ y_i)$, 建立线性模型 $y\approx\theta_0+\theta_1x$. 给定参数 $(\theta_0, \theta_1)$ 的估计为 $(\hat\theta_0, \hat\theta_1)$, 模型对 $x_i$ 响应的 $y_i$ 的预测是 $\hat y_i=\hat\theta_0+\hat\theta_1x$, 第 $i$ 个残差 residual ${\widetilde y}_i=y_i-\hat y_i$. 使得残差平方和最小的估计是
\[\begin{align*}\hat\theta_1=&\frac{\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)}{\sum_{i=1}^n(x_i-\bar x)^2}\\ \hat\theta_0=&\bar y-\hat\theta_1\bar x\end{align*}\]其中 $\bar x=\frac{1}{n}\sum_{i=1}^n x_i$, $\bar y=\frac{1}{n}\sum_{i=1}^n y_i$. 称为最小二乘公式 least squares formulation. 最小二乘公式满足经典推断的最大似然估计和贝叶斯最小均方估计.
- 贝叶斯线性回归 \[\begin{align*}f_{(\Theta|Y)}(\theta_0,\theta_1|y_1,\ldots,y_n)=&cf_\Theta(\theta_0,\theta_1)f_{(Y|Theta)}(y_1,\ldots,y_n|theta_0,\theta_1)\\ =&ce^{-\frac{\theta_0^2}{2\sigma_0^2}}e^{-\frac{\theta_1^2}{2\sigma_1^2}}\prod_{i=1}^n e^{-\frac{(y_i-\theta_0-x_i\theta_1)^2}{2\sigma^2}}\end{align*}\]
 将 $x_1,\ldots,x_n$ 当做给定的数, $(y_1,\ldots,y_n)$ 是向量 $Y=(Y_1,\ldots,Y_n)$ 的观测值, 随机向量 $Y_i=\Theta_0+\Theta_1x_i+W_i$. $\Theta=(\Theta_0,\Theta_1)$ 是待估参数, $W_1, \ldots, W_n$ 独立同分布, 均值为 $0$, 方差为 $\sigma^2$.
 $\Theta_0$, $\Theta_1$ 为随机变量, 均值为 $0$, 方差分别为 $\sigma_0^2$ 和 $\sigma_1^2$. 假设 $\Theta_0,\ \Theta_1,\ W_1, \ldots, W_n$ 为正态随机变量
 后验概率密度函数- 最大后验概率密度要求选择 $\theta_0$ 和 $\theta_1$ 使得 \[\frac{\theta_0^2}{2\sigma_0^2}+\frac{\theta_1^2}{2\sigma_1^2}+\sum_{i=1}^n\frac{(y_i-\theta_0-x_i\theta_1)^2}{2\sigma^2}\]- 最小. \[\begin{align*}\hat\theta_1=&\frac{\sigma_1^2}{\sigma^2+\sigma_1^2\sum_{i=1}^n(x_i-\bar x)^2}\sum_{i=1}^n(x_i-\bar x)(y_i-\bar y)\\ \hat\theta_0=&\frac{n\sigma_0^2}{\sigma^2+n\sigma_0^2}(\bar y-\hat\theta_1\bar x)\end{align*}\]
 可以得到最大后验概率估计- 其中 $\bar x=\frac{1}{n}\sum_{i=1}^n x_i,\ \bar y=\frac{1}{n}\sum_{i=1}^n y_i$. 
- considerations - 异方差性 heteroskedasticity
 噪声项的方差不同
 使用甲醛最小二乘准则 $\sum_{i=1}^n \alpha_i(y_i-\theta_0-\theta_1x_i)^2$
- 非线性
- 多重共线性 multicollinearity
- 过度拟合 overfitting
 数据点的数量应该是待估参数个数的 5 倍, 最好是 10 倍.
- 因果关系 causality
 
- 异方差性 heteroskedasticity
3. 简单假设检验 binary hypothesis testing
$H_0$ 原假设 null hypothesis, $H_1$ 备择假设 alternative hypothesis, 根据得到的数据决定支持/拒绝 $H_0$
 观测量 $X=(X_1, \ldots, X_n)$ 的分布依赖于假设. $P(X\in A;H_j)$ 表示假设 $H_j$ 成立时 $X\in A$ 的概率. $p_X(x;H_j)$ 或 $f_X(x;H_j)$ 为向量 $X$ 在假设 $H_j$ 下的概率质量/密度函数.
 不存在条件概率.
 观测量 $X$ 的所有可能取值的集合分为集合 $R$, 拒绝域 rejection region 和集合 $R^\mathrm{c}$ , 接受域 acceptance region. 当观测量 $X$ 落在拒绝域中, 假设 $H_0$ 被拒绝 ($H_0$ 是错误的), 否则被接受. 决策准则的选择等价于拒绝域的选择.
- 选定拒绝域 R, 有两种可能的错误- 拒绝 $H_0$ 而实际上 $H_0$ 是正确的. 这是第一类错误 Type I error, 或错拒 false rejection, 概率为 \[\alpha(R)=P(X\in R;H_0)\]
- 接受 $H_0$ 而实际上 $H_0$ 是错误的. 这是第二类错误 Type II error, 或受假 false acceptance, 概率为 \[\beta(R)=P(X\notin R;H_1)\]
 
- 似然比 likelihood ratio \[\begin{align*}L(x)=\frac{p_X(x;H_1)}{p_X(x;H_0)}\\ L(x)=\frac{f_X(x;H_1)}{f_X(x;H_0)}\end{align*}\]- 临界值 $\xi$ 可根据各种考虑确定, 对于 $H_0$ 的拒绝域 $R=\{x\vert L(x)>\xi\}$. $\xi=1$ 对应最大似然准则. 
- 似然比检验 likelihood ratio test, LRT- 确定错误拒绝的概率 $\alpha$ 的目标值, 一般为 0.1, 0.05, 0.01
- 选择 $\xi$ 使得错误拒绝的概率为 $\alpha$. $P(L(X)>\xi;H_0)=\alpha$, 从而确定了拒绝域
- 观测 $X$ 的取值 $x$, 若 $L(x)>\xi$, 则拒绝 $H_0$
 在给定的错误拒绝概率之下, 似然比检验使得错误接受的概率达到最小.- Neyman-Pearson Lemma
 考虑在似然比检验中一个确定的 $\xi$, 犯错概率 $P(L(X)>\xi;H_0)=\alpha,\ P(L(X)\le\xi;H_1)=\beta$. 假设还有其他检验, 拒绝域为 $R$, 使得错误拒绝的概率一样或更小 $P(X\in R;H_0)\le\alpha$. 则有 $P(X\notin R;H_1)\ge\beta$.
 当 $P(X\in R;H_0)<\alpha$ 成立时, 严格不等式 $P(X\notin R;H_1)>\beta$ 成立.
 
- Neyman-Pearson Lemma
 
4. 显著性检验 significance testing
- 相关定义- 原假设 null hypothesis, 默认的假设 $H_0$, 根据观测 $X=(X_1,\ldots,X_n)$ 决定拒绝还是接受原假设
- 参数模型 parametric models, 假设观测 $X$ 服从完全有未知参数 $\theta$ 决定的概率质量/密度函数, $\theta$ 在给定的集合 $\mathcal{M}$ 中取值
- 简单原假设 simple null hypothesis, 原假设断言 $\theta$ 的真值等于 $\mathcal{M}$ 中一个给定的元素 $\theta_0$
- 备择假设 alternative hypothesis, $H_1$, 假设 $H_0$ 不正确, 即 $\theta\ne\theta_0$
 
- 一般方法
 基于观测 $X_1, \ldots, X_n$, 对假设 $H_0: \theta=\theta^\star$ 做统计检验- 在观测数据之前- 选择统计量 statistic $S$, 一个能够概括观测数据的随机变量. 选择函数 $h:\mathcal{R}^n\rightarrow\mathcal{R}$ 使得统计量 $S=h(X_1, \ldots, X_n)$.
- 确定拒绝域的形状. 拒绝域通常由 $S$ 的取值组成的一个集合, 当 $S$ 落入这个集合, 就拒绝 $H_0$. 在确定这个集合时, 涉及一个未定常数 $\xi$, 称为临界值 critical value.
- 选择显著水平 significance level, 错误拒绝 $H_0$ 的概率 $\alpha$
- 选择临界值 $\xi$, 使错误拒绝的概率等于或近似等于 $\alpha$. 此时拒绝域被确定. 需要知道 $L(x)$ 在假设 $H_0$ 成立时的分布.
 
- 得到 $X_1, \ldots, X_n$ 的观测值 $x_1, \ldots, x_n$ 后- 计算统计量 $S$ 的值 $s=h(x_1,\ldots,x_n)$
- 若 $s$ 落在拒绝域中, 则拒绝假设 $H_0$, 称为 $H_0$ 在显著水平 $\alpha$ 之下被拒绝. $H_0$ is rejected at the $\alpha$ significance level. 在 $H_0$ 成立的模型中, 数据只会以 $\alpha$ 概率的可能性出现.
 
- 或者, 跳过 1.3-1.4, 计算 $S$ 的真实值 $s$ 得到 $p$-值 \[p\textrm{-value}=\min\{α|H_0\textrm{在显著水平}α\textrm{之下被拒绝}\}\]- $p$-值是 $s$ 应当在拒绝与不拒绝分界处的 $\alpha$ 值. 
 p-value 的概念, 用通俗的话来说, 就是在原假设正确时, 出现现状或更极端的情况的概率.
 
- 在观测数据之前
- 广义似然比 generalized likelihood ratio 和拟合优度检验 goodness of fit tests- 拟合优度检验: 检测给定的概率质量函数是否和观测数据保持一致 \[\begin{align*}H_0:\ \theta=(\theta_1^\star, \ldots, \theta_m^\star)\\ H_1:\ \theta\ne(\theta_1^\star, \ldots, \theta_m^\star)\end{align*}\]
 考虑一个在有限集合 $\{1,\ldots,m\}$ 上取值的随机变量, $\theta_k$ 是随机变量取值 $k$ 的概率. 随机变量的概率质量函数由向量参数 $\theta=(\theta_1,\ldots,\theta_m)$ 刻画. 考虑假设- 其中 $\{\theta_k^\star\}$ 是一组给定的和为 $1$ 的非负数. 抽取随机变量的一个样本量为 $n$ 的样本, 令 $N_k$ 是样本中结果为 $k$ 的次数. 实际观测得到的随机变量是 $X=(N_1, \ldots, N_m)$, 观察值是 $x=(n_1, \ldots, n_m)$. 有 $N_1+\ldots+N_m=n_1+\ldots+n_m=n$. 
- 广义似然比检验- 通过最大似然来估计模型, 如选择在所有 $\theta$ 中使得似然函数 $p_X(x;\theta)$ 达到最大的参数向量 $\hat\theta=(\hat\theta_1, \ldots, \hat\theta_m)$
- 进行似然比检验, 即比较估计模型的似然函数 $p_X(x;\hat\theta)$ 和 $H_0$ 下的 $p_X(x;\theta^\star)$, 计算广义似然比 $\frac{p_X(x;\hat\theta)}{p_X(x;\theta^\star)}$. 若它超过临界值 $\xi$ 则拒绝 $H_0$. 选择 $\xi$ 使得错误拒绝的概率近似等于给定的显著水平 $\alpha$.
 
- 对于拟合优度检验, 二项分布的似然函数 $p_X(x;\theta)=c\theta_1^{n_1}\ldots\theta_m^{n_m}$.
 似然函数达到最大的参数满足 $\hat\theta_k=\dfrac{n_k}{n}$, 似然比检验 $\sum_{k=1}^m n_k\ln{\dfrac{n_k}{n\theta_k^\star}}>\ln\xi$ 则拒绝 $H_0$.
 根据显著水平确定常数 $\xi$. $P(S>\ln\xi;H_0)=\alpha$, $S=\sum_{k=1}^m N_k\ln{\dfrac{N_k}{n\theta_k^\star}}$
 当 $n$ 足够大 $\hat\theta_k\sim\theta_k^\star$, $S$ 的泰勒二阶展开 $S\approx\dfrac{1}{2}\sum_{k=1}^m\frac{(N_k-n\theta_k^\star)^2}{n\theta_k^\star}=\dfrac{T}{2}$. $T$ 的分布逼近自由度为 $m-1$ 的 $\chi^2$ 分布.
 自由度为 $l$ 的 $\chi^2$ 分布定义为随机变量 $\sum_{i=1}^l Z_i^2$ 的分布, 其中 $Z_1, \ldots, Z_l$ 是服从标准正态分布 $Z\sim(0,1)$ 的随机变量.
- $\chi^2$ 检验 the Chi-Square test- 利用统计量 $S=\sum_{k=1}^m N_k\ln\dfrac{N_k}{n\theta_k^\star}$(或相关的统计量 $T$) 以及拒绝域 $\{2S>\gamma\}$ 进行检验 (或相应的 $\{T>\gamma\}$)
- 临界值 $\xi$ 依照自由度为 $m-1$ 的 $\chi^2$ 分布的概率分布函数表确定, 满足 $P(2S>\gamma;H_0)=\alpha$, 其中 $\alpha$ 是给定的显著水平.
 
 
5. 抽样分布
- $\chi^2$ 分布
 设 $X_1, X_2, \ldots,\ X_n$ 相互独立, 都服从标准正态分布 $N(0,1)$, 则称随机变量 $X=X_1^2+X_2^2+\ldots+X_n^2$ 所服从的分布为自由度为 $n$ 的 $\chi^2$ 分布. 记作 $X\sim\chi^2(n)$
 概率密度函数 $f_n(x)=\dfrac{1}{2^\frac{n}{2}\Gamma(\frac{n}{2})}x^{\frac{n}{2}-1}e^{-\frac{x}{2}}$
 累积分布函数 $F_n(x)=\dfrac{\gamma(\frac{n}{2},\frac{x}{2})}{\Gamma(\frac{n}{2})}$
 随着自由度的增加, 卡方分布逐渐趋近于正态分布. 可以用于单正态总体方差假设检验。
- Student’s $t$ 分布
 设 $X_1$ 服从标准正态分布 $N(0,1)$, $X_2$ 服从自由度为 $n$ 的 $\chi^2$ 分布, 且 $X_1,X_2$ 相互独立, 则称变量 $T=\dfrac{X_1}{\sqrt{\frac{X_2}{n}}}$ 所服从的分布为自由度为 $n$ 的 $T$ 分布.
 概率密度函数 $f_n(x)=\dfrac{\Gamma(\frac{n+1}{2})}{\sqrt{n\pi}\Gamma(\frac{n}{2})}(1+\dfrac{x^2}{n})^{-\frac{n+1}{2}}$
 累积分布函数 $F_n(x)=\dfrac{\gamma(\frac{n+1}{2},\frac{x^2}{2})}{\Gamma(\frac{n}{2})}$
 T分布是一种连续概率分布,主要用于根据小样本数据对总体均值进行推断。当自由度趋近于无穷大时,T分布趋近于标准正态分布。可以用于正态总体均值假设检验。
- F 分布
 设 $X_1$ 服从自由度为 $m$ 的 $\chi^2$ 分布, $X_2$ 服从自由度为 $n$ 的 $\chi^2$ 分布, 且 $X_1,\ X_2$ 相互独立, 则称变量 $F=\dfrac{\frac{X_1}{m}}{\frac{X_2}{n}}$ 所服从的分布为 $F$ 分布 $F\sim F(m,n)$, 其中第一自由度为 $m$, 第二自由度为 $n$.
 概率密度函数 $f_{m,n}(x)=\dfrac{\Gamma(\frac{m+n}{2})}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})}(\dfrac{m}{n})^{\frac{m}{2}}x^{\frac{m}{2}-1}(1+\dfrac{m}{n}x)^{-\frac{m+n}{2}}$
 累积分布函数 $F_{m,n}(x)=\dfrac{\gamma(\frac{m+n}{2},\frac{m}{n}x)}{\Gamma(\frac{m}{2})\Gamma(\frac{n}{2})}$
 F分布是一种非对称分布,且位置不可互换。可以用于双正态总体方差假设检验。
- Z 分布
 标准正态分布
根据分布求 $p$ 值, 需要看 $H_1$ 是单侧还是双侧检验.
- 若备择假设是 $H_1: \mu>\mu_0$, 则 $p$ 值是 $P(Z>z)$;
- 若备择假设是 $H_1: \mu<\mu_0$, 则 $p$ 值是 $P(Z<z)$;
- 若备择假设是 $H_1: \mu\ne\mu_0$, 则 $p$ 值是 $2P(Z>\vert z\vert)$.
1. 一个总体的假设检验
参考
 根据总体的 $\sigma_0, \mu_0$ 是否已知, 样本 $\{x_1,\cdots, x_n\}$ 容量大小, 适用于不同检验
| 检验法 | 条件 | 统计量 | 考察量 | 
| $Z$ 检验 | $\sigma_0$ 已知 | $$z=\frac{\bar X_n-\mu_0}{\frac{\sigma_0}{\sqrt n}}\sim N(0,1)$$ | $\bar X_n\sim\mu_0$ | 
| $\sigma_0$ 未知 大样本 $n\ge30$ | $$z=\frac{\bar X_n-\mu_0}{\frac{S_n}{\sqrt n}}\sim N(0,1)$$ | ||
| $t$ 检验 | $\sigma_0$ 未知 小样本 $n<30$ | $$t=\frac{\bar X_n-\mu_0}{\frac{S_n}{\sqrt n}}\sim T_{n-1}$$ | |
| $\chi^2$ 检验 | $\mu$ 未知 | $$\chi^2=\frac{(n-1)S_n^2}{\sigma_0^2}\sim\chi_{n-1}^2$$ | $S_n\sim\sigma_0$ | 
- Z 分布 
 z-score $z=\dfrac{\bar X_n-\mu}{\frac{S_n}{\sqrt n}}=\dfrac{\bar X_n-\mu_0}{\frac{\sigma_0}{\sqrt n}}$. $S_n$ 为样本均值分布的无偏标准差 (标准误差, 在总体标准差未知的情况下), $\sigma_0$ 为总体标准差.- 1 2 3 4 5 6 7 8 9 10 11 - import scipy.stats import numpy as np import statsmodels.stats.weightstats data = np.array([...]) mu_0 = 500 x = (data - mu_0) / (np.std(data, ddof=1) / np.sqrt(len(data))) z_value = np.mean(x) p_value = scipy.stats.norm.cdf(z_value) z_value, p_value = statsmodels.stats.weightstats.ztest(data, value=mu_0, alternative="smaller") 
- Student’s $t$ 分布 
 $n$ 个独立正态随机变量, 期望值为 $\mu$, 总体方差未知. 样本期望值 $\bar X_n=\frac{X_1+\ldots X_n}{n}$, 样本方差 $S_n^2=\frac{1}{n-1}\sum(X_i-\bar X_n)^2$, 则 $T=\dfrac{\bar X_n-\mu}{\frac{S_n}{\sqrt n}}$ 服从自由度为 $n-1$ 的 $T$ 分布.- 1 2 3 4 5 6 7 8 9 10 - import scipy.stats import numpy as np data = np.array([...]) mu_0 = 20 x = (data - mu_0) / (np.std(data, ddof=1) / np.sqrt(len(data))) t_value = np.mean(x) p_value = scipy.stats.t.sf(t_value, len(data) - 1) # greater意味着分布函数的另一侧 t_value, p_value = scipy.stats.ttest_1samp(a=data, popmean=mu_0, alternative="greater") 
- $\chi^2$ 分布 
 $n$ 个独立标准正态随机变量与均值的偏差平方和 (无偏方差 $(n-1)\hat S_n^2$) 满足自由度为 $n-1$ 的 $\chi^2$ 分布. $X=\dfrac{\sum(X_i-\bar X)^2}{\sigma_0^2}\sim\chi_{n-1}^2$.- 1 2 3 4 5 6 7 8 9 10 - import scipy.stats import numpy as np sigma_0 = 4 data = np.array([17.0, 21.7, 17.9, 22.9, 20.7, 22.4, 17.3, 21.8, 24.2, 25.4]) var = np.var(data, ddof=1) n = len(data) chi2_value = (n - 1) * var / sigma_0**2 p_value = scipy.stats.chi2.sf(chi2_value, n - 1) chi2_value, p_value 
2. 两个总体的假设检验
根据总体的 $\sigma_i$ 是否已知, 两样本是否独立, 正态, 样本 $\boldsymbol{X}_i$ 容量大小, 方差 $S_i^2$ 是否相等, 适用于不同检验
| 检验法 | 样本关系 | 条件 | 统计量 | 考察量 | 
| $Z$ 检验 | 独立 | $\sigma_i$ 已知 或二项分布的大容量近似 | $$\frac{\bar X_1-\bar X_2-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}\sim N(0,1)$$ | $\mu_1\sim\mu_2$ | 
| $\sigma_i$ 未知 大样本 $i\ge30$ | $$z=\frac{\bar X_1-\bar X_2-(\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}\sim N(0,1)$$ | |||
| $T$ 检验 | $\sigma_i$ 未知且假设相等 小样本 $n<30$ | $$t=\frac{\bar X_1-\bar X_2}{S_p\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}\sim T_{n_1+n_2-2}$$ | ||
| $\sigma_i$ 未知且假设不等 Welch's t-test | $$t=\frac{\bar X_1-\bar X_2}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}\sim T_{\nu}$$ | |||
| 关联样本 | 总体服从正态分布 | $$t=\frac{\bar d}{\frac{S_d}{\sqrt n}}\sim T_{n-1}$$ | ||
| Mann-Whitney U test | 独立 | 总体不服从正态分布 | $$U=\min(R_1, R_2)$$ | $\mathrm{median}_1\sim\mathrm{median}_2$ | 
| Wilcoxon signed-rank test | 关联样本 | $$W=\min(W_+, W_-)$$ | ||
| $F$ 检验 | 独立 | $$f=\frac{\frac{\frac{(n_1-1)S_1^2}{\sigma^2}}{n_1-1}}{\frac{\frac{(n_2-1)S_2^2}{\sigma^2}}{n_2-1}}\sim F(n_1-1, n_2-1)$$ | $S_1\sim S_2$ | 
- Z 分布
 z-score $z=\dfrac{\bar X_1-\bar X_2-(\mu_1-\mu_2)}{\sqrt{\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}}}=\dfrac{\bar X_1-\bar X_2-(\mu_1-\mu_2)}{\sqrt{\frac{\sigma_1^2}{n_1}+\frac{\sigma_2^2}{n_2}}}$.
 $S_i$ 为样本 $i$ 均值分布的无偏标准差 (标准误差, 在总体标准差未知的情况下), $\sigma_i$ 为总体 $i$ 的标准差.- 两个样本的比例的比较
 二项分布 $B$ 当样本量较大时, 样本比例 $\frac{B}{n}$ 趋近于正态分布 $N(p, \frac{p(1-p)}{n})$.
 样本之差 $X_1-X_2\sim N(p_1-p_2, \frac{p_1(1-p_1)}{n_1}+\frac{p_2(1-p_2)} {n_2})$.
 在原假设 $H_0: p_1=p_2$ 下, 样本比例之差 $X_1-X_2\sim N(0, p(1-p)\left(\frac {1}{n_1}+\frac{1}{n_2}\right))$. 其中 $p$ 使用加权平均 $p=\frac{p_1n_1 +p_2n_2}{n_1+n_2}$.
 故 $z=\dfrac{p_1-p_2}{\sqrt{p(1-p)\left(\frac{1}{n_1}+\frac{1}{n_2}\right)}}$.
 
- 两个样本的比例的比较
- Student’s $t$ 分布- 假设两个样本方差相等 \[\begin{gather*}t=\dfrac{\bar X_1-\bar X_2}{S_p\sqrt{\dfrac{1}{n_1}+\dfrac{1}{n_2}}}\sim T_{n_1+n_2-2}\\ S_p=\sqrt{\frac{(n_1-1)S_1^2+(n_2-1)S_2^2}{n_1+n_2-2}}\end{gather*}\]- $S_p$ 称为合并标准差(pooled standard deviation). - 1 2 3 4 5 6 7 8 9 10 - import scipy.stats import numpy as np a = np.array([...]) b = np.array([...]) sp = np.sqrt(((len(a) - 1) * np.var(a, ddof=1) + (len(b) - 1) * np.var(b, ddof=1)) / (len(a) + len(b) - 2)) t_value = (np.mean(a) - np.mean(b)) / (sp * np.sqrt(1 / len(a) + 1 / len(b))) p_value = 2 * scipy.stats.t.sf(np.abs(t_value), len(a) + len(b) - 2) # equal意味着函数两边剩余部分×2 t_value, p_value = scipy.stats.ttest_ind(a, b, equal_var=True, alternative="two-sided") - 对于方差是否相等, 可以用 Levene 检验(适用于非正态分布数据)或 Bartlett 检验(适用于正态数据). 其中 Brown-Forsythe 检验是 Levene 检验的改进版本, 适用于多组数据, 且不依赖于数据是否来自正态分布. - 特性 - Levene检验 - Bartlett检验 - Brown-Forsythe检验 - 适用数据 - 非正态分布数据 - 正态分布数据 - 非正态分布数据或存在异常值 - 对正态性的敏感性 - 非常敏感,非正态数据下结果不可靠 - 不敏感,对非正态数据稳健 - 对异常值的敏感性 - 非常敏感,异常值会影响结果 - 不敏感,对异常值稳健 - 统计功效 - 正态数据下功效高 - 非正态数据下功效高 - 主要用途 - 非正态分布数据的方差齐性检验 - 正态分布数据的方差齐性检验 - 非正态分布数据的方差齐性检验 - 函数 - scipy.stats.levene(center="mean")- scipy.stats.bartlett- scipy.stats.levene(center="median")- 对于数据是否符合正态分布, 可以使用 Shapiro-Wilk 检验或 Kolmogorov-Smirnov 检验. - 特性 - Shapiro-Wilk检验 - Kolmogorov-Smirnov检验 - 检验对象 - 仅适用于正态分布检验 - 适用于任何分布的检验 - 样本量 - 小样本 $3\le n\le 500$ - 大样本 $n>50n>50$ - 检验功效 - 小样本下功效高 - 大样本下功效高 - 对尾部的敏感性 - 对尾部偏离敏感 - 对尾部偏离不够敏感 - 适用范围 - 正态性检验 - 正态性及其他分布检验 
- 假设两个样本方差不等, Welch’s t-test \[\begin{gather*}t=\dfrac{\bar X_1-\bar X_2}{\sqrt{\dfrac{S_1^2}{n_1}+\dfrac{S_2^2}{n_2}}}\sim T_{\nu}\\ \nu=\frac{\left(\frac{S_1^2}{n_1}+\frac{S_2^2}{n_2}\right)^2}{\frac{(S_1^2/n_1)^2}{n_1-1}+\frac{(S_2^2/n_2)^2}{n_2-1}}\end{gather*}\]- 1 2 3 4 5 6 7 8 9 10 - import scipy.stats import numpy as np a = np.array([...]) b = np.array([...]) nu = (np.var(a, ddof=1) / len(a) + np.var(b, ddof=1) / len(b))**2 / ((np.var(a, ddof=1) / len(a))**2 / (len(a) - 1) + (np.var(b, ddof=1) / len(b))**2 / (len(b) - 1)) t_value = (np.mean(a) - np.mean(b)) / np.sqrt(np.var(a, ddof=1) / len(a) + np.var(b, ddof=1) / len(b)) p_value = 2 * scipy.stats.t.sf(np.abs(t_value), nu) t_value, p_value = scipy.stats.ttest_ind(a, b, equal_var=False, alternative="two-sided") 
- 两个样本相关联且正态 \[\begin{gather*}t=\dfrac{\bar d}{\dfrac{S_d}{\sqrt n}}\sim T_{n-1}\\ d=X_1-X_2\end{gather*}\]- 1 2 3 4 5 6 7 8 9 10 - import scipy.stats import numpy as np a = np.array([...]) b = np.array([...]) # 与a相同长度 d = a - b t_value = np.mean(d) / (np.std(d, ddof=1) / np.sqrt(len(d))) p_value = 2 * scipy.stats.t.sf(np.abs(t_value), len(d) - 1) t_value, p_value = scipy.stats.ttest_rel(a, b, alternative="two-sided") 
 
- Mann-Whitney U 检验
 两组独立样本, 适用于非正态分布, 无需方差齐性. 用于比较两个独立样本的中位数是否显著不同.
 两组样本的数据合并赋予秩次, 计算每组样本的秩和 $R_1, R_2$, 检验统计量 $U=\min(R_1, R_2)$.
 对于小样本 $n_1+n_2\le20$, 通过查表得到临界值 $p=\dfrac{\le U\textrm{ 的情况数}}{\textrm{总排列数}}$; 对于大样本 $U$ 统计量近似服从正态分布,$Z=\dfrac{U-\frac{n_1n_2}{2}}{\sqrt{\frac{n_1n_2(n_1+n_2+1)}{12}}}$.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 import scipy.stats import numpy as np a = np.array([...]) b = np.array([...]) ranks = scipy.stats.rankdata(np.concatenate([a, b])) # ranks = np.argsort(np.argsort(np.concatenate([a, b]))) + 1 R1 = ranks[:len(a)].sum() R2 = ranks[len(a):].sum() # 小样本精确 u_value = min(R1 - len(a) * (len(a) + 1) / 2, R2 - len(b) * (len(b) + 1) / 2) p_value = ... u_value, p_value = scipy.stats.mannwhitneyu(a, b, alternative="two-sided", method="exact") # 大样本近似 u_value = max(R1 - len(a) * (len(a) + 1) / 2, R2 - len(b) * (len(b) + 1) / 2) # U1和U2是互补的, 取大取小对于z分布无影响 z_value = (u_value - len(a) * len(b) / 2 - 0.5) / np.sqrt(len(a) * len(b) * (len(a) + len(b) + 1) / 12) # 0.5是连续性校正 p_value = 2 * scipy.stats.norm.sf(np.abs(z_value)) u_value, p_value = scipy.stats.mannwhitneyu(a, b, alternative="two-sided", method="asymptotic") 
- Wilcoxon signed-rank 检验
 两组相关样本, 适用于非正态分布, 无需方差齐性. 用于比较 两个相关样本(配对样本) 的中位数是否显著不同.
 两组样本的数据差值除去差值为 0 的对后为绝对值赋予秩次, 计算正负秩和 $W_+, W_-$, 检验统计量 $W=\min(W_+, W_-)$.
 对于小样本 $n\le20$, 通过查表得到临界值 $p=\dfrac{\le U\textrm{ 的情况数}}{\textrm{总排列数}}$; 对于大样本 $W$ 统计量近似服从正态分布,$Z=\dfrac{U-\frac{n(n+1)}{4}}{\sqrt{\frac{n(n+1)(2n+1)}{24}}}$.1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 import scipy.stats import numpy as np a = np.array([...]) b = np.array([...]) d = a - b d = d[d != 0] ranks = scipy.stats.rankdata(np.abs(d)) w_value = min(np.sum(ranks[d > 0]), np.sum(ranks[d < 0])) # 小样本精确 from itertools import combinations all_combinations = 2 ** len(d) # 每个差值有两种符号(正或负) W_values = [] for i in range(all_combinations): signs = np.array([(i >> j) & 1 for j in range(len(d))]) * 2 - 1 # 生成符号组合 W_current = np.sum(ranks * (signs == 1)) # 计算当前组合的 W 统计量 W_values.append(W_current) p_value = np.mean(np.array(W_values) <= W_observed) * 2 # 双侧检验 w_value, p_value = scipy.stats.wilcoxon(a, b, alternative="two-sided", method="exact") # 大样本近似 z_value = (w_value - len(d) * (len(d) + 1) / 4) / np.sqrt(len(d) * (len(d) + 1) * (2 * len(d) + 1) / 24) p_value = 2 * scipy.stats.norm.sf(np.abs(z_value)) # 不考虑连续性校正 w_value, p_value = scipy.stats.wilcoxon(a, b, alternative="two-sided", method="asymptotic") 
- F 分布
 两个独立的 $\chi^2$ 随机变量 $X_1\sim\chi_m^2,\ X_2\sim\chi_n^2$, 则 $F=\dfrac{X_1/m}{X_2/n}$ 服从自由度为 $m, n$ 的 $F$ 分布.- 两总体方差之比
 来自正态分布 $N(\mu, \sigma^2)$ 的随机样本方差 $S^2=\frac{1}{n-1}\sum(X_i-\bar X)^2$
 根据 $\chi^2$ 分布定义, 标准化后样本方差服从 $\chi^2$ 分布 $\dfrac{(n-1)S^2}{\sigma^2}\sim\chi^2(n-1)$.
 在两组独立样本方差相等的假设下, 方差之比 $\dfrac{S_1^2}{S_2^2}=\dfrac{\frac{(n_1-1)S_1^2}{\sigma^2}/(n_1-1)}{\frac{(n_2-1)S_2^2}{\sigma^2}/(n_2-1)}\sim F(n_1-1, n_2-1)$ 即服从 $F$ 分布.1 2 3 4 5 6 7 import scipy.stats import numpy as np data1 = np.array([...]) data2 = np.array([...]) f_value = np.var(data1, ddof=1) / np.var(data2, ddof=1) p_value = scipy.stats.f.sf(f_value, len(data1) - 1, len(data2) - 1) p_value = 2 * min(p_value, 1 - p_value) # 双侧检验 
 
- 两总体方差之比
6. 方差分析
ANOVA(Analysis of Variance)通过分解方差来判断组间差异是否显著。
 条件:
- 独立性:样本之间相互独立。
- 正态性:每个总体都服从正态分布。
- 方差齐性:每个总体的方差相等。参考齐次性检验
若不满足上述条件, 考虑使用非参数检验方法, 如 Kruskal-Wallis H-test (scipy.stats.kruskal) 或 Alexander-Govern test (scipy.stats.alexandergovern).
1. 单因素多水平方差分析
只有一个分类自变量, 且有三个或更多组.
 对于 $k$ 个水平(组数)的观测值 $x_{k1},\cdots,x_{k,n_k}$, 总样本量为 $N$, 
 总方差 $\mathrm{SST}=\sum_{i,j}(x_{ij}-\bar x)^2$,
 组间方差 $\mathrm{SSB}=\sum_{i=1}^k n_i(\bar x_i-\bar x)^2$,
 组内方差 $\mathrm{SSW}=\sum_{i,j}(x_{ij}-\bar x_i)^2$,
 F 统计量 $F=\dfrac{\mathrm{SSB}/(k-1)}{\mathrm{SSW}/(N-k)}\sim F(k-1, N-k)$
1
2
3
4
5
import scipy.stats
import numpy as np
data = np.array([...])
groups = np.array([...])
f_value, p_value = scipy.stats.f_oneway(*[data[groups == i] for i in np.unique(groups)])
事后检验(Post-hoc Test)
 如果 One-Way ANOVA 的结果显著(即拒绝零假设),通常需要进行 事后检验 来进一步确定哪些组之间存在显著差异。常用的事后检验方法包括:
- Tukey’s HSD 检验:适用于所有组的两两比较。
- Bonferroni 校正:适用于少量组的两两比较。
- Scheffé 检验:适用于复杂的多重比较。
2. 双因素方差分析
有两个分类自变量, 且每个自变量有两个或更多水平.
 双因素方差分析用于研究 两个分类自变量(因素) 对连续因变量的影响,以及这两个因素之间是否存在交互作用。
- 主效应:每个因素对因变量的独立影响。
- 交互效应:两个因素共同对因变量的影响。
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
import pandas as pd
import statsmodels.api as sm
from statsmodels.formula.api import ols
# 示例数据
data = pd.DataFrame({
    'Y': [23, 29, 20, 32, 27, 31, 36, 28, 40, 34, 45, 49, 42, 50, 47],
    'A': ['A1', 'A1', 'A1', 'A2', 'A2', 'A2', 'A3', 'A3', 'A3', 'A1', 'A1', 'A1', 'A2', 'A2', 'A2'],
    'B': ['B1', 'B1', 'B1', 'B1', 'B1', 'B1', 'B1', 'B1', 'B1', 'B2', 'B2', 'B2', 'B2', 'B2', 'B2']
})
# 拟合线性模型
# C(A)表示分类变量A
# C(A):C(B)表示A和B的交互作用
model = ols('Y ~ C(A) + C(B) + C(A):C(B)', data=data).fit()
# 进行方差分析
anova_table = sm.stats.anova_lm(model, typ=2)
print(anova_table)
anova_lm 的输出结果是一个表格,包含以下信息:
- sum_sq:平方和(Sum of Squares)
- df:自由度(Degrees of Freedom)
- F:F 统计量
- PR(>F):p 值
- Residual 表示残差
| sum_sq | df | F | PR(>F) | |
|---|---|---|---|---|
| C(A) | 123.45 | 2.0 | 5.678 | 0.0123 | 
| C(B) | 67.89 | 1.0 | 6.543 | 0.0234 | 
| C(A):C(B) | 45.67 | 2.0 | 2.345 | 0.1456 | 
| Residual | 234.56 | 9.0 | NaN | NaN | 
7. 相关性分析
相关性分析用于研究两个变量之间的关系。
| 变量1 | 变量2 | 相关系数计算方法 | 函数 | 
| 连续型变量 | 连续型变量 | Pearson(正态分布) Spearman(非正态分布) | scipy.stats.pearsonr(X, Y) scipy.stats.spearmanr(X, Y) | 
| 二分类变量(无序) | Point-biserial | scipy.stats.pointbiserialr(X, Y) | |
| 二分类变量(有序) | Biserial | ||
| 无序分类变量 | 方差分析 | ||
| 有序分类变量 | 连续指标离散化后当做有序分类 | ||
| 二分类变量 | 二分类变量 | $\chi^2$ 检验联合Cramer's V | |
| 无序分类变量 | 无序分类变量 | $\chi^2$ 检验 Fisher检验 | |
| 有序分类变量 | $\chi^2$ 检验 | ||
| 有序分类变量 | Spearman / Kendall Tau相关系数 | scipy.stats.kendalltau(X, Y) | 
- 连续型变量: 商品曝光量
- 二分类变量(无序): 性别
- 二分类变量(有序): 考试是否通过
- 无序分类变量: 产品类型
- 有序分类变量: 产品等级
分类变量的相关性分析, 对于 $n\times m$ 的列联表, $O_{ij}$ 为单元格观测频数, $E_{ij}$ 为单元格期望频数, $N$ 为总频数, $C_j$ 为列总和.
| 指标 | 适用范围 | 取值范围 | 公式 | 特点 | 
|---|---|---|---|---|
| $\chi^2$ 检验 | 任何 $n\times m$ 表 $\forall E_{ij}\ge 5$ | $\ge0$ | \(\chi^2=\sum\frac{(O_{ij}-E_{ij})^2}{E_{ij}}\) | 检验独立性,不衡量关联强度 | 
| Fisher 精确检验 | $2\times 2$ 表 | $\ge0$ | \(F=\frac{\prod_{i=1}^2{(O_{i1}+O_{i2})!(O_{1i}+O_{2i})!}}{(\prod_{ij}O_{ij}!)N!}\) | 适用于小样本的分类变量相关性分析 | 
| $\phi$ 系数 | $2\times 2$ 表 | $[0, 1]$ | \(\phi=\sqrt{\frac{\chi^2}{N}}\) | |
| 列联系数 | 任何 $n\times m$ 表 | $\left[0, 1\right)$ | \(C=\sqrt{\frac{\chi^2}{\chi^2+N}}\) | |
| 校正列联系数 | 任何 $n\times m$ 表 | $[0, 1]$ | \(C_\textrm{adj}=\sqrt{\frac{\chi^2}{\chi^2+N}}\sqrt{\frac{\min(n,m)}{\min(n,m)-1}}\) | |
| Cramer’s V | 任何 $n\times m$ 表 | $[0, 1]$ | $V=\sqrt{\frac{\chi^2}{N(\min(n, m)-1)}}$ | 最常用 | 
| $\lambda$ 系数 | 任何 $n\times m$ 表 | $[0, 1]$ | \(\lambda=\frac{\sum_{i=1}^k \max_j O_{ij}-\max_j C_j}{N-\max_j C_j}\) | 衡量预测能力, 非关联强度 | 
1
2
3
4
5
6
7
8
9
10
11
12
import scipy.stats
import numpy as np
contigency_table = np.array([[...], [...]])
chi2_value, p_value, dof, expected = scipy.stats.chi2_contingency(contigency_table)
# Cramer's V
n = np.sum(contigency_table)
v = np.sqrt(chi2_value / (n * (min(contigency_table.shape) - 1)))
# fisher 精确检验
odds_ratio, p_value = scipy.stats.fisher_exact(contigency_table)