PRML-Introduction

前沿

2021.06.18 开始从头攻克PRML

1.2 概率论 (Probability Theory)

联合概率、边缘概率和条件概率

对于两个随机变量$X$和$Y$

$X$可以取值：$x_{i}$，其中$i=1,\cdots,M$；同理，$Y$可以取值：$y_{j}$，其中$j=1，,\cdots, L$

考虑一个$N$次实验

令得到$X=x_{i}$且$Y=y_{j}$的结果实验次数为$n_{ij}$

令得到$X=x_{i}$结果的实验次数为$c_{i}$

令得到$Y=y_{j}$的结果的试验次数为$r_{j}$

联合概率(joint probability)

那么$X=x_{i}$且$Y=y_{j}$的联合概率是$p\left(X=x_{i}, Y=y_{j}\right)=\frac{n_{i j}}{N}$

边缘概率(marginal probability)

$X=x_{i}$边缘概率是$p\left(X=x_{i}\right)=\frac{c_{i}}{N}=\sum_{j=1}^{L} p\left(X=x_{i}, Y=y_{j}\right)$

条件概率(conditional probability)

当给定$X=x_{i}$时，$Y=y_{j}$的条件概率是$p\left(Y=y_{j} \mid X=x_{i}\right)=\frac{n_{i j}}{c_{i}}$

由上面的概率定义，可以得到下面两个法则：

概率的求和法则

$$p(X)=\sum_{Y} p(X, Y)$$

通过$p\left(X=x_{i}\right)=\sum_{j=1}^{L} p\left(X=x_{i}, Y=y_{j}\right)$得到

概率的乘法法则

$$p(X, Y)=p(Y \mid X) p(X)$$

由$p\left(X=x_{i}, Y=y_{j}\right)=\frac{n_{i j}}{N}=\frac{n_{i j}}{c_{i}} \cdot \frac{c_{i}}{N}=p\left(Y=y_{j} \mid X=x_{i}\right) p\left(X=x_{i}\right)$得到

联合概率满足对称性

$$p(X, Y)=p(Y, X)$$

贝叶斯公式

$$p(Y \mid X)=\frac{p(X \mid Y) p(Y)}{p(X)}$$

可以使用求和法则将分母表达为下面的式子：

$$p(X)=\sum_{Y} p(X \mid Y) p(Y)$$

1.2.1 概率密度 (Probability densities)

概率密度

对于落在$(x,x+\delta x)$区间的实值连续变量$x$，$p(x)\delta x, \delta x\rightarrow \infty$被称为$x$的概率密度

连续型变量的概率表示

$$p(x \in(a, b))=\int_{a}^{b} p(x) \mathrm{d} x$$

其中，满足一下两条性质

$$p(x) \geqslant 0$$

$$\int_{-\infty}^{\infty} p(x) \mathrm{d} x=1$$

累计密度函数(cumulative distribution)

$x$在$(-\infty, z)$上的概率，成为累计密度函数

$$P(z)=\int_{-\infty}^{z} p(x) \mathrm{d} x$$

多个连续型变量

对于多个连续型变量$x_{1},\cdots,x_{D}$，组成的向量$\mathbf{x}$

定义联合概率密度$p(\mathrm{x})=p\left(x_{1}, \ldots, x_{D}\right)$

多元概率密度必须满足

$$\begin{array}{r} p(\mathbf{x}) \geqslant 0 \\ \\ \int p(\mathbf{x}) \mathrm{d} \mathbf{x}=1\end{array}$$

如果$\mathbf{x}$是一个离散变量，那么$p(\mathbf{x})$有时成为概率质量函数(probability mass function)；
因为他被视为一组集中在$\mathbf{x}$上的概率质量

对于概率密度来说，求和、乘法法则、贝叶斯同样适用于概率密度

$$ \begin{aligned} p(x) &=\int p(x, y) \mathrm{d} y \\ p(x, y) &=p(y \mid x) p(x) \end{aligned} $$

1.2.2 期望(Expectations)和协方差(Covariances)

对于函数$f(x)$，在一个概率分配$p(x)$下的平均值成为期望(Expectations)，记为$\mathbb{E}[f]$

离散型分布

$$\mathbb{E}[f]=\sum_{x} p(x) f(x)$$
平均值由不同$x$对应的概率进行加权

连续性分布

$$\mathbb{E}[f]=\int p(x) f(x) \mathrm{d} x$$

如果从概率分布或者概率密度中取出有限数量的N个点，那么期望可以近似为:

$$\mathbb{E}[f] \simeq \frac{1}{N} \sum_{n=1}^{N} f\left(x_{n}\right)$$

这个结果在采样方法中特别有用，采样当中一般会$N\rightarrow \infty$

多元期望

有时会考虑多变量函数的期望，但是在这个期望的计算过程中，需要指明是根据哪个变量的分布进行的平均，使用下标来进行指明

$$\mathbb{E}_{x}[f(x, y)]$$

表示函数$f(x,y)$相对于$x$分布的相对值，最后的结果是关于$y$的一个函数

当多元变量相互独立时，期望服从线性性质：

$$\mathbb{E}[ax+by+cz] = a\mathbb{E}[x]+b\mathbb{E}[y]+c\mathbb{E}[z]$$

$$\mathbb{E}[x_{1}x_{2}\cdots x_{n}]=\mathbb{E}[x_{1}]\mathbb{E}[x_{2}]\cdots\mathbb{E}[x_{n}]$$

简要证明一下 (Exercise 1.10)
$$ \begin{aligned} \mathbb{E}[x+z] &=\iint(x+z) p(x) p(z) \mathrm{d} x \mathrm{~d} z \ &=\int x p(x) \mathrm{d} x+\int z p(z) \mathrm{d} z \ &=\mathbb{E}[x]+\mathbb{E}[z] \end{aligned} $$
因为独立才有$p(x, z)=p(x) p(z)$

条件期望(conditional expectation)

对于一个条件分布，同样有相对应的条件期望

$$\mathbb{E}_{x} [f \mid y]=\sum_{x} p(x \mid y) $$

方差(variance)和协方差(covariance)

下面讨论方差和协方差，$f(x)$的方差定义为：

$$\operatorname{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right]$$

它更多评价$f(x)$围绕它均值的变化程度，一般在计算中写成$f(x)$和$f(x)^{2}$的期望形式方便计算：

$$\operatorname{var}[f]=\mathbb{E}\left[f(x)^{2}\right]-\mathbb{E}[f(x)]^{2}$$

特别的，对于随机变量$x$，他的方差是:

$$\operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2}$$

当多变量相互独立是，方差服从性质：

$$\operatorname{var}[nx]=n^{2}\operatorname{var}[x]$$

$$\operatorname{var}[x_{1}x_{2}\cdots x_{n}]=\operatorname{var}[x_{1}]+\operatorname{var}[x_{2}]\cdots\operatorname{var}[x_{n}]$$

简要证明一下 (Exercise 1.10)
$$ \begin{aligned} \operatorname{var}[x+z] &=\iint(x+z-\mathbb{E}[x+z])^{2} p(x) p(z) \mathrm{d} x \mathrm{~d} z \ &=\int(x-\mathbb{E}[x])^{2} p(x) \mathrm{d} x+\int(z-\mathbb{E}[z])^{2} p(z) \mathrm{d} z \ &=\operatorname{var}(x)+\operatorname{var}(z) \end{aligned} $$
其中 $(x+z-\mathbb{E}[x+z])^{2}=(x-\mathbb{E}[x])^{2}+(z-\mathbb{E}[z])^{2}+2(x-\mathbb{E}[x])(z-\mathbb{E}[z])$，因为独立最后一项积分为0

对于两个随机变量$x$和$y$，他们的协方差(covariance)的定义为：

$$ \begin{aligned} \operatorname{cov}[x, y] &=\mathbb{E}_{x, y}[{x-\mathbb{E}[x]}{y-\mathbb{E}[y]}] \\ &=\mathbb{E}_{x, y}[x y]-\mathbb{E}[x] \mathbb{E}[y] \end{aligned} $$

表达了$x$和$y$ 一起变换 的程度

对于两个由随机变量组成的向量$\mathbf{x}$和$\mathbf{y}$，他们的协方差以矩阵形式给出：

$$ \begin{aligned} \operatorname{cov}[\mathrm{x}, \mathbf{y}] &=\mathbb{E}_{\mathbf{x}, \mathbf{y}} \left[\{\mathbf{x}-\mathbb{E}[\mathbf{x}]\}\left\{\mathbf{y}^{\mathrm{T}}-\mathbb{E}\left[\mathbf{y}^{\mathrm{T}}\right]\right\}\right] \\ &=\mathbb{E}_{\mathbf{x}, \mathbf{y}}\left[\mathrm{xy}^{\mathrm{T}}\right]-\mathbb{E}[\mathrm{x}] \mathbb{E}\left[\mathbf{y}^{\mathrm{T}}\right] \end{aligned} $$

1.2.3 贝叶斯概率 (Bayesoan probabilities)

上面概率解释偏向经典的频率派(frequentist)解释，下面开始转换到贝叶斯的视角：概率其实提供了一种不确定性的量化
Now we turn to the more general Bayesian view, in which probabilities provide a quantification of uncertainty.

贝叶斯派 Vs 频率派：
频率学派的参数固定，数据根据固定参数随机产生；贝叶斯学派认为参数也是一个随机变量，也有概率分布。也就是说，贝叶斯学派才有$p(\mathbf{w})$ 这个东西
频率学派没有先验概率，使用最大似然估计(maximum likelihood estimator,MLE)，容易过拟合，而贝叶斯学派可以使用最大后验估计(MAP)，可以一定程度上避免过拟合。严格来说MAP也不是纯贝叶斯的方法，真正的贝叶斯方法，需要算出参数的概率分布。
频率学派的重点是优化问题，优化一个损失函数的目标；贝叶斯学派的重点是积分问题，后验概率中分母的那个积分（也叫配分函数）的计算。
真正的贝叶斯方法除了做MAP之外，一般有两步：1. 贝叶斯推断/估计计算p(w|D)主要是一个积分问题 2.贝叶斯决策/预测，使用w预测新来的数据的概率
转自：https://zhuanlan.zhihu.com/p/365934431

假设我们观察到的变量是$t_{n}$，我们对一些参数$\mathbf{w}$进行推断时，可以在观察数据之前 ，以先验概率分布$p(\mathbf{w})$的形式来捕捉(capture)对$\mathbf{w}$的假设

$$p(\mathbf{w} \mid \mathcal{D})=\frac{p(\mathcal{D} \mid \mathbf{w}) p(\mathbf{w})}{p(\mathcal{D})}$$

似然(likelihood)： 贝叶斯右边的 $p(\mathcal{D} \mid \mathbf{w})$，因为他表达了在$\mathbf{w}$参数下，观察数据集$\mathcal{D}$的概率，可以认为是$\mathbf{w}$的一个函数。注意！似然不是$\mathbf{w}$上的概率分布，并且对于$\mathbf{w}$的积分不一定等于1

因此，贝叶斯公式可以表达为下述：

$$\text { posterior } \propto \text { likelihood } \times\text { prior }$$

$$p(\mathbf{w} \mid \mathcal{D}) \propto p(\mathcal{D} \mid \mathbf{w}) \times p(\mathbf{w})$$

$$\text { 后验 } \propto \text { 似然 } \times\text { 先验 }$$

这里其实主要描述的是对$\mathbf{w}$的不确定性的测量，先验、后验、似然都是针对$\mathbf{w}$来说的

贝叶斯公式中的分母 $p(\mathcal{D})$是为了概率进行归一化的，可以表达为下面的这种形式：

$$p(\mathcal{D})=\int p(\mathcal{D} \mid \mathbf{w}) p(\mathbf{w}) \mathrm{d} \mathbf{w}$$

共轭先验：

如果后验概率$p(\mathbf{w} \mid \mathcal{D})$和先验概率$p(\mathbf{w})$满足同样的分布律，那么先验分布和后验分布被称作共轭分布。先验分布叫做似然函数的共轭先验分布。

$$p(\mathbf{w} \mid \mathcal{D}) = \frac{p(\mathbf{w} , \mathcal{D})}{p(\mathcal{D})}$$

举个例子：

Beta分布是二项式分布的共轭先验分布。

Dirichlet分布是多项式分布的共轭分布。

常见的共轭分布可以在wikipedia上查到

共轭的意思就是，以Beta分布和二项式分布为例，数据符合二项式分布时，参数的先验分布和后验分布都能保持Beta分布的形式
这种能够在先验分布中赋予参数明确的物理意义，这个物理意义可以延续到后续分布中进行解释

1.2.4 高斯分布

单实值变量高斯

单实值变量$x$的高斯分布定义为：

$$\mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}$$

其中两个参数：$\mu$：均值；$\sigma^{2}$: 方差

$\sigma$称为标准差，$\beta=\frac{1}{\sigma^{2}}$方差的倒数称为精度(precision)

可以看到高斯分布满足概率的条件：

$$\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) \mathrm{d} x=1$$

$$\mathcal{N}\left(x \mid \mu, \sigma^{2}\right)>0$$

高斯的均值：

$$\mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x \mathrm{~d} x=\mu$$

$$\mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x^{2} \mathrm{~d} x=\mu^{2}+\sigma^{2}$$

结合上式可得高斯的方差：

$$\operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2}=\sigma^{2}$$

多元高斯

对于包含着连续变量的 $D$ 维向量 $\mathbf{x}$ ，高斯分布以如下形式给出：

$$\mathcal{N}(\mathrm{x} \mid \mu, \Sigma)=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\Sigma|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathrm{x}-\mu)^{\mathrm{T}} \Sigma^{-1}(\mathrm{x}-\mu)\right\}$$

$\mathbf{\mu}$称为均值，$D\times D$的矩阵$\Sigma$称为协方差，$|\Sigma|$表示$\Sigma$的行列式

单变量高斯的N次观察

现在，假设我们有一个观察到的数据集$\bm{x}=\left(x_{1}, \ldots, x_{N}\right)^{\mathrm{T}}$，表示对一个变量$x$的$N$次观察

注意，这里的$\bm{x}$和上面的多变量高斯中的$\mathbf{x}$不同，这里指的是对一个变量$x$(标量)的N次观察得到的数据集，多变量高斯中的$\mathbf{x}=\left(x_{1}, \ldots, x_{N}\right)^{\mathrm{D}}$ 指的是多个变量

我们假设观测值独立于均值为$\mu$，方差为$\sigma^{2}$的高斯，并且希望从这个数据集中确定高斯的参数

独立同分布 (independent and identically distributed, i.i.d)：从同一个分布中独立抽取的数据点

Data points that are drawn independently from the same distribution are said to be independent and identically distributed, which is often abbreviated to i.i.d.

因为数据集是独立同分布的，所以他们的联合概率根据乘法法则就可以直接给出：

$$p\left(\bm{x} \mid \mu, \sigma^{2}\right)=\prod_{n=1}^{N} \mathcal{N}\left(x_{n} \mid \mu, \sigma^{2}\right)$$

这个时候，最重要的不是看数据点怎么样了，而是把$p\left(\bm{x} \mid \mu, \sigma^{2}\right)$看成是$\mu$和$\sigma$的函数，这也是贝叶斯派比较重要的一个观点，下面就是要怎么去求解这两个参数

书里面对于高斯的likelihood函数我觉得说的比较清楚，也就是在参数$\mu$，$\sigma$下，观察数据得到的概率，图中的公式(1.53)也就是上面的公式$p\left(\bm{x} \mid \mu, \sigma^{2}\right)$。

求解最大似然(MAP)

所以，最大似然其实就是在求解 $\max{p\left(\bm{x} \mid \mu, \sigma^{2}\right)}$，非常容易理解

因为高斯的形式当中有求积，所以取对数变成求和

$$\ln p\left(\bm{x} \mid \mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}-\frac{N}{2} \ln \sigma^{2}-\frac{N}{2} \ln (2 \pi)$$

所以 $\max{\ln p\left(\bm{x} \mid \mu, \sigma^{2}\right)}$

$$\mu_{\mathrm{ML}}=\frac{1}{N} \sum_{n=1}^{N} x_{n}$$

$$\sigma_{\mathrm{ML}}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{\mathrm{ML}}\right)^{2}$$

得到的 $\mu_{\mathrm{ML}}$ 和 $\sigma_{\mathrm{ML}}^{2}$ 被称作采样均值 (sample mean) 和采样方差 (sample variance)。并且这个是有偏估计，可以通过计算$\mathbb{E}[\mu_{ML}]$和$\mathbb{E}[\sigma_{ML}^{2}]$得到

$$\mathbb{E}\left[\mu_{\mathrm{ML}}\right]=\mu$$

$$\mathbb{E}\left[\sigma_{\mathrm{ML}}^{2}\right]=\left(\frac{N-1}{N}\right) \sigma^{2}$$

这里需要推导一下，首先是$\mathbb{E}\left[\mu_{\mathrm{ML}}\right]$是无偏的：
$$\mathbb{E}\left[\mu_{\mathrm{ML}}\right] =\mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N} x_{n}\right] =\frac{1}{N} \sum_{n=1}^{N} \mathbb{E}\left[ x_{n}\right] = \mu$$
其次，$\mathbb{E}\left[\sigma_{\mathrm{ML}}^{2}\right]$是有偏的
$$ \begin{aligned} \mathbb{E}\left[\sigma_{\mathrm{ML}}^{2}\right] & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{\mathrm{ML}}\right)^{2}\right] \\ & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}^{2}+\mu_{\mathrm{ML}}^{2}-2x_{n}\mu_{\mathrm{ML}}\right)\right] \\ & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}x_{n}^{2}-\frac{1}{N}\sum_{n=1}^{N}\left(2x_{n}\mu_{\mathrm{ML}}\right)+\mu_{\mathrm{ML}}^{2}\right] \\ & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}x_{n}^{2}-\frac{1}{N}2\mu_{\mathrm{ML}}\sum_{n=1}^{N}\left(x_{n}\right)+\mu_{\mathrm{ML}}^{2}\right] \\ & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}x_{n}^{2}-2\mu_{\mathrm{ML}}^{2}+\mu_{\mathrm{ML}}^{2}\right] \\ & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}x_{n}^{2}-\mu_{\mathrm{ML}}^{2}\right] \end{aligned} $$
这里最好分开看容易理解
对于第一项 $\mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}x_{n}^{2}\right] = \frac{1}{N} \sum_{n=1}^{N}\mathbb{E}\left[x_{n}^{2} \right]$,
其中，根据方差公式可以得到： $\mathbb{E}\left[x_{n}^{2}\right]=\sigma^{2}+\mu^{2}$
对于第二项 $\mathbb{E}\left[\mu_{\mathrm{ML}}^{2}\right]$可以看做是对$\mu_{\mathrm{ML}}$的估计，即根据方差公式可以得到：
$$ \begin{aligned} \mathbb{E}\left[\mu_{\mathrm{ML}}^{2}\right]&=\mathbb{D}(\mu_{\mathrm{ML}})+\mathbb{E}\left[\mu_{\mathrm{ML}}\right]^{2}\\ &=\mathbb{D}\left[\frac{1}{N} \sum_{n=1}^{N} x_{n}\right] + \mathbb{E}\left[\mu\right]^{2} \\ &=\frac{1}{N^{2}}\sum_{n=1}^{N}\mathbb{D}\left[x_{n}\right] + \mathbb{E}\left[\mu\right]^{2} \\ &=\frac{1}{N}\mathbb{D}[x]+\mu^{2} \\ &=\frac{1}{N}\sigma^{2} + \mu^{2} \end{aligned} $$
其中$\mathbb{D}$为方差符号
上述都用到的一个概念：$x_{i}$是$\bm{x}$的一个实例，$\bm{x}$服从什么分布，$x_{i}$也服从，即$\mathbb{E}[x_{i}]=\mathbb{E}[\bm{x}]$, $\mathbb{D}[x_{i}]=\mathbb{D}[\bm{x}]$
综上：
$$\mathbb{E}\left[\sigma_{\mathrm{ML}}^{2}\right]=\sigma^{2}+\mu^{2} - (\frac{1}{N}\sigma^{2}+\mu^{2})=\frac{N-1}{N}\sigma^{2}$$

1.5 决策论 (Decision Theory)

决策论在于概率论相结合时，可以让我们在涉及不确定性的情况下做出最佳决策

问题：给定一个向量$\mathbf{x}$与相应的目标$\mathbf{t}$，求对于$\mathbf{x}$中的一个新的值，预测得到的$\mathbf{t}$

以检测X-ray的癌症病症为例，输入的$\mathbf{x}$是图像中像素值的集合，输出的变量$t$将代表是不是患有癌症

有癌症以$C_{1}$代表，没有癌症以$C_{2}$代表，同时可以使用数字来代替符号，即$t=0 \leftrightarrow C_{1};\quad t=0 \leftrightarrow C_{2}$

我们现在关心的是，对于一副给定病人X-ray的图像，去判断病人患癌的概率，即$p(C_{k}|\mathbf{x})$，可以使用贝叶斯公式进行如下表达：

$$p(C_{k}|\mathbf{x})=\frac{p(\mathbf{x}|C_{k})p(C_{k})}{p(\mathbf{x})}$$

这里，$p(C_{k})$可以成为对类别$C_{k}$的先验（即在不做X-ray之前，判断一个人是否患癌的概率）；
$p(\mathbf{x}|C_{k})$成为相对应的后验