统计检验

假设检验

碰巧有机会回顾了一下统计学的东西,就把一些统计检验相关的放在这了~

第 3 章 假设检验 | 数理统计讲义远离 这里有一些假设检验的基本内容。

我们要做假设检验,是通过一系列样本来分析总体的分布。我们需要做的是提出原假设和备择假设,H0称为原假设/零假设(Null Hypothesis),H1称为备选假设/对立假设/备择假设(Alternative Hypothesis)。

两类错误

两类错误

第一类错误的概率是$\alpha$,原假设是真的但是我们拒绝了他。所以就用原假设作为条件,推出来拒绝的概率等于$\alpha$。

  • 比如如果是正态分布的mu的检验,就看实际上得到的结果在两端的概率;如果是一个均匀分布,就看最大值是不是在范围内

参数估计

最大似然估计:概率最大,求导

矩估计:一阶(平均)、二阶(中心矩、原点矩)

卡方分布检验是否符合给定分布

拟合优度,用(O-E)^2/E的和来判断,自由度是种类数目-1-估算的参数个数,每一类最好不小于5

孟德尔豌豆的例子在https://bookdown.org/hezhijian/book/test.html#mendel

OLS最小二乘参数公式

$\hat\beta_1=\frac{\Sigma x y-\frac{1}{N} \Sigma x \Sigma y}{\Sigma x^{2}-\frac{1}{N}(\Sigma x)^{2}}$

$\hat\beta_0 = \bar y - \hat\beta_1 \bar x$

beta1标准差:$\sqrt{\frac{1}{\sum\left(x_{t}-\bar{x}\right)^{2}}}\times \sqrt{\frac{\sum \hat{u}_{t}^{2}}{T-2}}$

ANOVA

Oneway ANalysis Of VAriance

方差分析(Analysis of Variance,简称ANOVA),又称“变异数分析”,是R.A.Fisher发明的,用于两个及两个以上样本均数差别的显著性检验。

https://zhuanlan.zhihu.com/p/57896471 这里的介绍很清楚,摘录一下:

虽然ANOVA叫做方差分析,但是他的目的是检验每个组的平均数是否相同

最后我们需要做的,就是对比组间均方(MSB)和组内均方(MSE)。最简单的对比方法就是把他们相除,也就是我们常说的F-statistics

ANOVA计算

这里有一个完整的计算过程的介绍:ANOVA算法介绍PDF

把里面的计算过程拿出来:

ANOVA表

里面:

  • k: 种类数;n:数据个数;
  • $\mathrm{SSTr}=\sum_{i=1}^{k} n_{i}\left(\bar{x}_{i}-\overline{\bar{x}}\right)^{2}$
  • $\begin{aligned} \mathrm{SSE} &=\sum_{j=1}^{n_{1}}\left(x_{1 j}-\bar{x}{1}\right)^{2}+\sum{j=1}^{n_{2}}\left(x_{2 j}-\bar{x}{2}\right)^{2}+\cdots+\sum{j=1}^{n_{k}}\left(x_{k j}-\bar{x}{k}\right)^{2} \ &=\left(n{1}-1\right) S_{1}^{2}+\left(n_{2}-1\right) S_{2}^{2}+\cdots\left(n_{k}-1\right) S_{k}^{2} \ &=\sum_{i=1}^{k}\left(n_{i}-1\right) S_{i}^{2} \end{aligned}$
  • SST=SSTr+SSE, $\begin{aligned} \mathrm{SST} &=\sum_{\text {all obs. }}\left(x_{l}-\overline{\bar{x}}\right)^{2} \ &=\sum_{i=1}^{k} \sum_{j=1}^{n_{i}}\left(x_{i j}-\overline{\bar{x}}\right)^{2} \end{aligned}$
  • $\mathrm{MSTr}=\frac{\mathrm{SSTr}}{k-1}$
  • $\mathrm{MSE}=\frac{\mathrm{SSE}}{n-k}$
  • $\begin{aligned} F &=\frac{\mathrm{MSTr}}{\mathrm{MSE}} \ &=\frac{\text { between }-\text { samples variation }}{\text { within }-\text { samples variation }} \end{aligned}$
  • p-value用到的自由度是k-1和n-k

有一个计算器:计算器,里面F值算p值的在这里有一个专门计算器:F值到p值

Excel计算方法:excel中的anova