一、前言
本学期正在学习的《生物数学》课程搭配的《生物与医学统计基础》教材对我来说略微有些难懂,因此期末复习时不得不按照自己的理解重新整理思路,理清每个部分的联系与差异。这份教程从我自己的思考与理解出发,在AI的帮助下,来回答书上没有的、老师可能认为不重要的那些来龙去脉。
二、基础知识(对应第一章)
1. 函数和映射
概率论中的很多概念都可以被视作函数/映射。例如:
- 概率本身就是事件$\rightarrow[0,1]$的映射;
- 随机变量是将样本空间$\rightarrow R$的映射(抛硬币的正面次数$\rightarrow$一个数值);
- 分布函数(CDF)是随机变量到区间概率的映射($P(X\le x)$);
- 密度函数(PDF)是分布函数的导数,例如正态分布的钟形曲线。它反映了随机变量落在某个值附近的概率大小。
⚠️注意密度函数的值不是单点概率!连续型随机变量的单点概率是0。因为对于一个点而言其围成面积为0,但在该点附近取值的概率密度却是一定存在的。密度是一个点,一个区域的积分才有意义。
把这些概念看作函数而非直观的事实描述,能够更好地统一分析,并且更深入地理解随机变量究竟随机在哪,后续的分布又是为何而来。
2. ROC曲线
预测为正类(Positive) | 预测为负类(Negative) | |
---|---|---|
实际为正类(Positive) | 真阳性(TP,True Positive) | 假阴性(FN,False Negative) |
实际为负类(Negative) | 假阳性(FP,False Positive) | 真阴性(TN,True Negative) |
ROC曲线起源于上面的混淆矩阵。我们希望能够用一些计算来度量预测的有效性,因此衍生出以下概念:
- 准确率(Accuracy):衡量“对不对”,即相对于真实来源中的所有数据,到底有多少被正确地预测。
$$Accuracy = \frac{TP + TN}{TP + TN + FP + FN}$$ - 查准率(Precision):衡量“准不准”,即相对于预测结果中的正例,到底有多少真正的正例。
$$Precision = \frac{TP}{TP + FP}$$ - 查全率(Recall):衡量“全不全”,即相对于真实来源中的正例,有多少被预测为正例。亦称“真阳性率”,即书上的“灵敏度“。
$$Recall = \frac{TP}{TP + FN}$$ - 特异度(Specificity):衡量”全不全“,即相对于真实来源中的负例,有多少被预测为负例,亦称”真阴性率“。
$$Specificity = \frac{TN}{TN + FP}$$
由于当正负例样本不均衡时,Precision会产生较大影响(可能预测出更多的假阴性/阳性,即造成了$P(预测为阳性/阴性)$的值有大波动),所以选择灵敏度和特异度来绘制ROC曲线,描述模型的效果。
横轴是$1-真阴性率=假阳性率$,纵轴是$真阳性率$,围成的面积表述了模型区分正负样本的能力。
3. 随机变量的分布
随机变量可以呈现多种分布,总体而言可以分为离散型随机变量和连续型随机变量。
3.1. 离散型随机变量
- 0-1分布:进行1次试验,结果只有0或1两种。因此其分布律为:
$$P(X=k)=p^k(1-p)^{1-k}, k=0,1$$
由此进一步可得,期望为:
$$\mathbb{E}=p \times 1 + (1-p) \times 0=p$$
方差为:
$$\mathbb{D}=(1-np)^2\times p + (0-np)^2\times (1-p)=p(1-p)$$ - 二项分布:进行n重伯努利试验(即n个0-1分布),其分布律为:
$$P(X=k)=C^k_np^k(1-p)^{n-k}$$
由于描述的是成功次数$k$,不妨将二项分布看作多个独立的伯努利试验的加和,根据期望的性质,不难得出二项分布的期望:
$$\mathbb{E}=np$$
根据方差的性质,当n个分布互相独立时,$\mathbb{D}(X+Y+…)=\mathbb{D}(X) + \mathbb{D}(Y) +…$,可得方差为:
$$\mathbb{D}=np(1-p)$$ - 泊松分布:由二项分布衍生,是一种特殊情况。即当$n\rightarrow \infty$,同时$p\rightarrow 0$。换句话说,就是在无穷多的事件中,每一个事件的成功概率都很小,但其期望$\lambda=np$保持稳定。
此时,基于以上情形推导其分布律:
$$P(X=k)=\lim_{n\rightarrow \infty}C^k_n(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}$$
$$P(X=k)=\lim_{n\rightarrow \infty}\frac{n!}{k!(n-k)!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}$$
$$P(X=k)=\lim_{n\rightarrow \infty}\frac{\overbrace{n(n-1)…(n-k+1)}^{k个}}{k!}(\frac{\lambda}{n})^k(1-\frac{\lambda}{n})^{n-k}$$
一项项分析,$\lim_{n\rightarrow \infty}\frac{\overbrace{n(n-1)…(n-k+1)}^{k个}}{k!}=\frac{n^k}{k!}$,而$\lim_{n\rightarrow \infty}(1-\frac{\lambda}{n})^{n-k}=e^{-\lambda}$。合并可得:
$$P(X=k)=\frac{\lambda^k}{k!}e^{-\lambda}$$
这就是泊松分布的分布律。
泊松分布的方差和期望涉及到泰勒展开,直接给出结果:
$$\mathbb{E}=\lambda,\mathbb{D}=\lambda$$
3.2. 连续型随机变量
- 均匀分布:即在区间$[a,b]$内,事件发生的概率是均匀的。密度函数、分布函数、方差和期望书上有,略过。
- 指数分布:指数分布实质上是泊松分布的一体两面。例如,泊松分布描述了某个时间段内事件发生的次数,那么指数分布则可以用来解决要等待多久才会发生一次事件,因此很适合用于描述生存、寿命。
想要解决”要等待t时间才发生一次事件(这一事件可以在0~t的时间段发生)“,可以转换成对立问题”等待了t时间发生了0次事件“,也就是泊松分布的$P(k=0)=e^{-\lambda t}$。这里$\lambda t$代表t时间内的期望,因为$\lambda$仅为单位时间内的期望。最终可以得到分布函数为:
$$P(T\le t)=1-e^{\lambda t}$$
接下来进行求导,得到密度函数:
$$f(t)=\lambda e^{-\lambda t}$$
方差和期望书上有,略过。 - 正态分布:正态分布实质上是二项分布的极限,即中心极限定理后的结果。
4. 协方差和相关系数
协方差实际上可以从$\mathbb{D}(X\pm Y)=\mathbb{D}(X)+\mathbb{D}(Y)\pm 2\mathbb{E}(X-\mathbb{E}(X))((Y-\mathbb{E}(Y)))$得来,就是后面的一串。
假如X和Y同步变化,那么协方差就为正,否则为负。但协方差的问题在于有单位,因此相关系数出现,将协方差变为无量纲的量:
$$\rho_{X,Y}=\frac{Cov(X,Y)}{\sigma_{X}\sigma_{Y}}$$