常见分布¶
离散分布¶
离散分布描述离散型随机变量各个取值的概率。下面几种分布可以按试验模型来记:一次成败试验对应两点分布,多次独立成败试验对应二项分布,单位时间内的随机计数常用 Poisson 分布,等待第一次成功对应几何分布,不放回抽样对应超几何分布。
两点分布¶
若离散型随机变量 \(X\) 只可能取 \(0\) 和 \(1\) 两个值,它的分布律为
则称 \(X\) 服从参数为 \(p\) 的 \(0-1\) 分布、两点分布 (two-point distribution) 或伯努利分布 (Bernoulli distribution),记为 \(X \sim Bernoulli \left(p \right)\) 或 \(X \sim B \left(1, p \right)\)。
分布律也可以写成
| \(X\) | \(0\) | \(1\) |
|---|---|---|
| \(P\) | \(1-p\) | \(p\) |
国内外的说法似乎不统一。英文维基百科上说,这种分布叫伯努利分布,是两点分布的特例。两点分布不要求 \(X\) 只取 \(0\) 和 \(1\) 两个值。
二项分布¶
- \(n\) 次独立重复试验:\(n\) 次重复试验,每次试验条件相同,结果互不影响。
- \(n\) 重 Bernoulli 试验:\(n\) 次独立重复试验中,每次试验的结果只有 \(A\) 和 \(\overline{A}\) 两个。
若离散型随机变量 \(X\) 表示 \(n\) 重 Bernoulli 试验中 \(A\) 发生的次数(每次试验中 \(A\) 发生的概率都为 \(p\)),其分布律为
则称 \(X\) 服从参数为 \(n\)、\(p\) 的二项分布 (binomial distribution),记为 \(X \sim B \left(n, p \right)\)。
Poisson 定理¶
设 \(\lambda > 0\) 是一个常数,\(n\) 是任意的正整数,\(np=\lambda\),则对任一固定的非负整数 \(k\),有
当 \(n\) 充分大、\(p\) 充分小时,可以用来近似计算二项分布。一般 \(n \ge 20\),\(p \le 0.05\) 时,效果较好。
Poisson 分布¶
若离散型随机变量 \(X\) 的分布律为
则称 \(X\) 服从参数为 \(\lambda\) 的泊松分布 (Poisson distribution),记为 \(X \sim P \left(\lambda \right)\)。
Poisson 分布适合描述一定时间内随机事件发生的次数 \(X\)。如某一服务设施在一定时间内受到的服务请求的次数。
几何分布¶
若离散型随机变量 \(X\) 的分布律为
则称 \(X\) 服从参数为 \(p\) 的几何分布 (geometric distribution)。
设 Bernoulli 试验中,得到一次成功所需要的试验次数 \(X\)。如某射手对一目标连续进行独立射击,命中率为 \(p\),射击直到命中目标为止。射击次数 \(X\) 就服从参数为 \(p\) 的几何分布。
超几何分布¶
设有 \(N\) 件产品,其中有 \(M\) 件次品,从中任取 \(n\) 件,则取出的次品数 \(X\) 的分布律为
称 \(X\) 服从参数为 \(N\)、\(M\)、\(n\) 的超几何分布 (hypergeometric distribution)。
对于固定的 \(n\),当 \(N \to \infty\) 时,\(\dfrac{M}{N} \to p\),则
- 当 \(n\) 相对 \(N\) 较小,如 \(\dfrac{n}{N}\) 不超过 \(5\%\) 时,超几何分布可用二项分布近似计算。
- 超几何分布的背景是不放回抽样。二项分布的背景是放回抽样。当 \(N\) 很大时,不放回抽样近似于放回抽样。
连续分布¶
连续分布用概率密度描述随机变量落在某个区间内的概率。均匀分布强调区间内“等可能”,指数分布常用于等待时间,正态分布则是最常见的集中在均值附近的连续模型。
均匀分布¶
若连续型随机变量 \(X\) 的概率密度为
则称 \(X\) 在区间 \(\left(a,b \right)\) 上服从均匀分布 (continuous uniform distribution),记为 \(X \sim U \left(a,b \right)\)。
分布函数为
设 \(X \sim U[a,b]\),则 \(X\) 在 \([a,b]\) 的任一子区间上取值的概率等价于以 \(a\)、\(b\) 为端点的直线线段上的几何概率。
指数分布¶
若连续型随机变量 \(X\) 的概率密度为
其中 \(\lambda>0\) 为常数,则称 \(X\) 服从参数为 \(\lambda\) 的指数分布 (exponential distribution),记为 \(X \sim E(\lambda)\)。
分布函数为
可以用来表示独立随机事件发生的时间间隔 \(X\)。如旅客进入机场的时间间隔。
无记忆性¶
\(\forall s,t>0\),有
正态分布¶
若连续型随机变量 \(X\) 的概率密度为
其中 \(\mu\)、\(\sigma \ \left(\sigma > 0 \right)\) 为常数,则称 \(X\) 服从参数为 \(\mu\)、\(\sigma^2\) 的正态分布 (normal distribution) 或高斯分布 (Gaussian distribution),记为 \(X \sim N(\mu, \sigma^2)\)。
- \(f\left(x \right)\) 关于 \(x=\mu\) 对称,在 \(x=\mu\) 处取得最大值 \(f\left(\mu \right)=\dfrac{1}{\sqrt{2\pi}\sigma}\)。
- \(\mu\) 为位置参数。改变 \(\mu\),函数图像将沿 \(x\) 轴平移。
- \(\sigma\) 越大,图形越扁。\(\sigma\) 越小,图形越尖,\(X\) 落在 \(\mu\) 附近的概率越大。
分布函数为
- \(F\left(\mu \right) = \dfrac{1}{2}\)。
- \(P\left(X \le \mu \right)=P\left(X > \mu \right)=\dfrac{1}{2}\)。
标准正态分布¶
设 \(X \sim N(\mu, \sigma^2)\),若 \(\mu=0\),\(\sigma^2=1\),则称 \(X\) 服从标准正态分布 (standard normal distribution),记为 \(X \sim N(0, 1)\)。
概率密度为
分布函数为
- \(\Phi\left(0 \right) = \dfrac{1}{2}\)。
- \(P\left(X \le 0 \right)=P\left(X > 0 \right)=\dfrac{1}{2}\)。
- \(\Phi\left(-x \right) = 1 - \Phi\left(x \right)\)。
设 \(X \sim N(\mu, \sigma^2)\),
- \(Z=\dfrac{X-\mu}{\sigma} \sim N(0,1)\)。\(Z\) 为 \(X\) 的标准化。
- \(Y=aX+b \sim N(a\mu+b, (a\sigma)^2)\),\(\left(a \ne 0\right)\)。线性变换后正态性不变。
- \(F\left(x \right) = \Phi\left(\dfrac{x-\mu}{\sigma} \right)\)。
3 sigma 规则¶
正态分布的随机变量的取值在 \(\mu\) 的 \(3\sigma\) 邻域内的概率为 \(0.9972\),所以该事件的发生几乎是肯定的。
- 当 \(x > 4\) 时,\(\Phi\left(x \right) \approx 1\)。
- 当 \(x < -4\) 时,\(\Phi\left(x \right) \approx 0\)。