概率与统计：常见分布类型与指标

常见分布类型

伯努利分布（Bernoulli Distribution）

伯努利分布一次实验有两个可能的结果，比如1代表success及0代表failure。

随机变量X一个取值为1并代表成功，成功概率为p，一个取值为0表示失败，失败概率为1−p。

$$ P(x) = p ^x (1-p) ^{1-x}, x \in {0, 1} $$

$$ E(X) = 1 \times p + 0 \times (1 − p) = p \ V(X) = E(X ^2)−E(X) ^2 = p − p ^2 = p \times (1 − p) $$

均匀分布（Uniform Distribution）

当你掷骰子的时候，结果出现1到6中的任何一个，而任何一个结果出现的概率都是相同的，这就是均匀分布最原始的雏形。你可能看出来了，与伯努利分布不同的是，这n个出现的结果的概率都是相同的。

一个随机变量X为均匀分布是指密度函数如下：

$$ f(x) = \frac{1}{b - a}, - \infty \lt a \leq b \lt \infty $$

二项分布（Binomial Distribution）

二项分布就是重复n次独立的伯努利试验。

二项分布的性质是：

每次实验独立
试验中只有两种可能的结果：成功或失败
共进行了n次相同的试验
所有试验的成功和失败的概率是相同的

$$ P(x) = \frac{n!}{(n-x)!x!} p^x (1-p) ^{n-x} $$

$$ E(X) = n \times p \ V(X) = n \times\ p \times (1-p) $$

正态分布（Normal Distribution）

正态分布可以表示宇宙中大多数的事件发生情况。如果任何分布具有以下特征，则称为正态分布：

均值、中位数、众数在一个分布中取相同的值
分布曲线关于x=μ对称
曲线下面的面积总和为1
中心位置的左半边和右半边对应位置的概率取值相同

正态分布与二项分布有很大的不同。但是，如果试验次数接近无穷大，则形状将非常相似。

服从正态分布的随机变量X的密度函数为：

$$ f(x) = \frac{1}{\sqrt{2\pi\sigma}}e ^{- \frac{1}{2}(\frac{x - \mu}{\sigma}) ^2}, - \infty < x < \infty $$

$$ E(X) = \mu \ V(X) = \sigma ^2 $$

标准正态分布的均值为0，方差为1。

泊松分布（Poisson Distribution）

泊松分布适用于事件发生在任意随机时间点或者空间的情况，其中我们的兴趣仅在于事件的发生次数。当以下假设有效时，分布称为泊松分布：

任何成功的事件都不应该影响另一个成功事件的结果
在较短的时间间隔内成功的概率必须等于在较长的时间间隔内成功的概率
随着间隔变小，间隔内成功的概率接近零

泊松分布中使用的一些符号是：

λ是事件发生的速率
t是时间间隔的长度
X是在时间间隔t内事件发生的次数

我们用μ表示时间t内时间发生的平均次数也就是均值，所以μ = λ ∗ t。

$$ P(X = x) = e ^{- \mu \frac{\mu ^ x}{x!}}, x = 0, 1, 2, … $$

$$ E(X) = \mu \ V(X) = \mu $$

指数分布（Exponential Distribution）

指数分布（也称为负指数分布）是描述泊松过程中的事件之间的时间的概率分布，即事件以恒定平均速率连续且独立地发生的过程。它是几何分布的连续模拟，它具有无记忆的关键性质。

指数分布与分布指数族的分类不同，后者是包含指数分布作为其成员之一的大类概率分布，也包括正态分布，二项分布，伽马分布，泊松分布等等。

随机变量X服从指数分布，它的密度函数如下：

$$ f(x) = \lambda e ^ {\lambda x}, x \gt 0 $$

参数λ > 0也叫做速率。

对于生存分析，λ被称为设备在任何时间t的故障率，假设它存活到t。

$$ E(X) = \frac{1}{\lambda} \ V(X) = (\frac{1}{\lambda}) ^2 $$

此外，速率越大，曲线越下降快，速率越低，曲线越平滑。

分布之间的关系

伯努利分布是二项分布的一个特例，只有一次试验
泊松分布是二项分布的极限分布

参考数据科学家应知必会的6种常见概率分布。

均值/标准差/方差/协方差

给定n个样本的集合：

$$ \mathbf{X} = {X_m, …, X_n} $$

均值：样本集合的中间点

$$ \bar{X} = \frac{\sum ^n _{i=1} X _i}{n} $$

标准差：样本集合的各样本点到均值的距离之平均（数据的散布度）

$$ s = \sqrt{\frac{\sum ^n _{i=1} (X _i - \bar{X}) ^2 }{n - 1}} $$

方差：

$$ s ^2 = \frac{\sum ^n _{i=1} (X _i - \bar{X}) ^2 }{n - 1} $$

为什么需要协方差？

因为有时我们需要度量两个随机变量之间的关系。

方差也可以定义为：

$$ var(X) = \frac{\sum ^n _{i=1} (X _i - \bar{X})(X _i - \bar{X}) }{n - 1} $$

协方差：

$$ cov(X, Y) = \frac{\sum ^n _{i=1} (X _i - \bar{X})(Y _i - \bar{Y}) }{n - 1} $$

如果协方差为正，说明两者正相关。从协方差可以引出“相关系数”的定义。

协方差矩阵：协方差多了就是协方差矩阵

协方差只能处理二维问题，维数多了自然需要计算多个协方差，写成矩阵形式就是：

$$ C _{n \times n} = (c _{i, j}, c _{i, j} = cov(Dim _i, Dim _j)) $$

以三维为例：

$$ C = \begin{pmatrix} cov(x, x) & cov(x, y) & cov(x, z) \ cov(y, x) & cov(y, y) & cov(y, z) \ cov(z, x) & cov(z, y) & cov(z, z) \end{pmatrix} $$

对角线上是各个维度的方差。需要注意的是，协方差矩阵计算的是不同维度之间的协方差，而不是不同样本之间的。

实战

产生一个10x3的整数矩阵作为样本集：

>> Sample = fix(rand(10, 3) * 50)
Sample =
    40     7    32
    45    48     1
     6    47    42
    45    24    46
    31    40    33
     4     7    37
    13    21    37
    27    45    19
    47    39    32
    48    47     8

每行为一个样本，每列为一个维度。

先取出每一列：

>> dim1 = Sample(:, 1);
>> dim2 = Sample(:, 2);
>> dim3 = Sample(:, 3);

按照公式计算协方差并验证：

% calculate
>> sum((dim1 - mean(dim1)) .* (dim2 - mean(dim2))) / (size(Sample, 1) - 1)
ans =
    78
% test
>> cov(dim1, dim2)
ans =
  301.1556   78.0000
   78.0000  268.9444

% calculate
>> sum((dim1 - mean(dim1)) .* (dim3 - mean(dim3))) / (size(Sample, 1) - 1)
ans =
 -120.2444
% test
>> cov(dim1, dim3)
ans =
  301.1556 -120.2444
 -120.2444  216.0111

% calculate
>> sum((dim2 - mean(dim2)) .* (dim3 - mean(dim3))) / (size(Sample, 1) - 1)
ans =
 -126.9444
% test
>> cov(dim2, dim3)
ans =
  268.9444 -126.9444
 -126.9444  216.0111

协方差仅能进行定性的分析，并不能进行定量的分析，比如身高体重之间的协方差为209.1，它们之间的相关性具体有多大呢，协方差并没有给出定量的判断标准。因此我们引出相关系数的概念。关于相关系数，可以参考这篇文章。