This page looks best with JavaScript enabled

PRML-Introduction

 ·  ☕ 11 min read

前沿

2021.06.18 开始从头攻克PRML

1.2 概率论 (Probability Theory)

联合概率、边缘概率和条件概率

对于两个随机变量XXYY

XX可以取值:xix_{i},其中i=1,,Mi=1,\cdots,M;同理,YY可以取值:yjy_{j},其中j=1,,Lj=1,,\cdots, L

考虑一个NN次实验

令得到X=xiX=x_{i}Y=yjY=y_{j}的结果实验次数为nijn_{ij}

令得到X=xiX=x_{i}结果的实验次数为cic_{i}

令得到Y=yjY=y_{j}的结果的试验次数为rjr_{j}

联合概率(joint probability)

那么X=xiX=x_{i}Y=yjY=y_{j}的联合概率是p(X=xi,Y=yj)=nijNp\left(X=x_{i}, Y=y_{j}\right)=\frac{n_{i j}}{N}

边缘概率(marginal probability)

X=xiX=x_{i}边缘概率是p(X=xi)=ciN=j=1Lp(X=xi,Y=yj)p\left(X=x_{i}\right)=\frac{c_{i}}{N}=\sum_{j=1}^{L} p\left(X=x_{i}, Y=y_{j}\right)

条件概率(conditional probability)

当给定X=xiX=x_{i}时,Y=yjY=y_{j}的条件概率是p(Y=yjX=xi)=nijcip\left(Y=y_{j} \mid X=x_{i}\right)=\frac{n_{i j}}{c_{i}}


由上面的概率定义,可以得到下面两个法则:

概率的求和法则

p(X)=Yp(X,Y)p(X)=\sum_{Y} p(X, Y)

通过p(X=xi)=j=1Lp(X=xi,Y=yj)p\left(X=x_{i}\right)=\sum_{j=1}^{L} p\left(X=x_{i}, Y=y_{j}\right)得到

概率的乘法法则

p(X,Y)=p(YX)p(X)p(X, Y)=p(Y \mid X) p(X)

p(X=xi,Y=yj)=nijN=nijciciN=p(Y=yjX=xi)p(X=xi)p\left(X=x_{i}, Y=y_{j}\right)=\frac{n_{i j}}{N}=\frac{n_{i j}}{c_{i}} \cdot \frac{c_{i}}{N}=p\left(Y=y_{j} \mid X=x_{i}\right) p\left(X=x_{i}\right)得到


联合概率满足对称性

p(X,Y)=p(Y,X)p(X, Y)=p(Y, X)

贝叶斯公式

p(YX)=p(XY)p(Y)p(X)p(Y \mid X)=\frac{p(X \mid Y) p(Y)}{p(X)}

可以使用求和法则将分母表达为下面的式子:

p(X)=Yp(XY)p(Y)p(X)=\sum_{Y} p(X \mid Y) p(Y)

1.2.1 概率密度 (Probability densities)

概率密度

对于落在(x,x+δx)(x,x+\delta x)区间的实值连续变量xxp(x)δx,δxp(x)\delta x, \delta x\rightarrow \infty被称为xx的概率密度

连续型变量的概率表示

p(x(a,b))=abp(x)dxp(x \in(a, b))=\int_{a}^{b} p(x) \mathrm{d} x

其中,满足一下两条性质

p(x)0p(x) \geqslant 0

p(x)dx=1\int_{-\infty}^{\infty} p(x) \mathrm{d} x=1

累计密度函数(cumulative distribution)

xx(,z)(-\infty, z)上的概率,成为累计密度函数

P(z)=zp(x)dxP(z)=\int_{-\infty}^{z} p(x) \mathrm{d} x

多个连续型变量

对于多个连续型变量x1,,xDx_{1},\cdots,x_{D},组成的向量x\mathbf{x}

定义联合概率密度p(x)=p(x1,,xD)p(\mathrm{x})=p\left(x_{1}, \ldots, x_{D}\right)

多元概率密度必须满足

p(x)0p(x)dx=1\begin{array}{r} p(\mathbf{x}) \geqslant 0 \\ \\ \int p(\mathbf{x}) \mathrm{d} \mathbf{x}=1\end{array}

如果x\mathbf{x}是一个离散变量,那么p(x)p(\mathbf{x})有时成为概率质量函数(probability mass function);

因为他被视为一组集中在x\mathbf{x}上的概率质量

对于概率密度来说,求和、乘法法则、贝叶斯同样适用于概率密度

p(x)=p(x,y)dyp(x,y)=p(yx)p(x) \begin{aligned} p(x) &=\int p(x, y) \mathrm{d} y \\ p(x, y) &=p(y \mid x) p(x) \end{aligned}

1.2.2 期望(Expectations)和协方差(Covariances)

对于函数f(x)f(x),在一个概率分配p(x)p(x)下的平均值成为期望(Expectations),记为E[f]\mathbb{E}[f]

离散型分布

E[f]=xp(x)f(x)\mathbb{E}[f]=\sum_{x} p(x) f(x)
平均值由不同xx对应的概率进行加权

连续性分布

E[f]=p(x)f(x)dx\mathbb{E}[f]=\int p(x) f(x) \mathrm{d} x

如果从概率分布或者概率密度中取出有限数量的N个点,那么期望可以近似为:

E[f]1Nn=1Nf(xn)\mathbb{E}[f] \simeq \frac{1}{N} \sum_{n=1}^{N} f\left(x_{n}\right)

这个结果在采样方法中特别有用,采样当中一般会NN\rightarrow \infty

多元期望

有时会考虑多变量函数的期望,但是在这个期望的计算过程中,需要指明是根据哪个变量的分布进行的平均,使用下标来进行指明

Ex[f(x,y)]\mathbb{E}_{x}[f(x, y)]

表示函数f(x,y)f(x,y)相对于xx分布的相对值,最后的结果是关于yy的一个函数

当多元变量相互独立时,期望服从线性性质:

E[ax+by+cz]=aE[x]+bE[y]+cE[z]\mathbb{E}[ax+by+cz] = a\mathbb{E}[x]+b\mathbb{E}[y]+c\mathbb{E}[z]

E[x1x2xn]=E[x1]E[x2]E[xn]\mathbb{E}[x_{1}x_{2}\cdots x_{n}]=\mathbb{E}[x_{1}]\mathbb{E}[x_{2}]\cdots\mathbb{E}[x_{n}]

简要证明一下 (Exercise 1.10)
E[x+z]=(x+z)p(x)p(z)dx dz =xp(x)dx+zp(z)dz =E[x]+E[z] \begin{aligned} \mathbb{E}[x+z] &=\iint(x+z) p(x) p(z) \mathrm{d} x \mathrm{~d} z \ &=\int x p(x) \mathrm{d} x+\int z p(z) \mathrm{d} z \ &=\mathbb{E}[x]+\mathbb{E}[z] \end{aligned}

因为独立才有p(x,z)=p(x)p(z)p(x, z)=p(x) p(z)

条件期望(conditional expectation)

对于一个条件分布,同样有相对应的条件期望

Ex[fy]=xp(xy)\mathbb{E}_{x} [f \mid y]=\sum_{x} p(x \mid y)

方差(variance)和协方差(covariance)

下面讨论方差和协方差,f(x)f(x)方差定义为:

var[f]=E[(f(x)E[f(x)])2]\operatorname{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right]

它更多评价f(x)f(x)围绕它均值的变化程度,一般在计算中写成f(x)f(x)f(x)2f(x)^{2}的期望形式方便计算:

var[f]=E[f(x)2]E[f(x)]2\operatorname{var}[f]=\mathbb{E}\left[f(x)^{2}\right]-\mathbb{E}[f(x)]^{2}

特别的,对于随机变量xx,他的方差是:

var[x]=E[x2]E[x]2\operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2}

当多变量相互独立是,方差服从性质:

var[nx]=n2var[x]\operatorname{var}[nx]=n^{2}\operatorname{var}[x]

var[x1x2xn]=var[x1]+var[x2]var[xn]\operatorname{var}[x_{1}x_{2}\cdots x_{n}]=\operatorname{var}[x_{1}]+\operatorname{var}[x_{2}]\cdots\operatorname{var}[x_{n}]

简要证明一下 (Exercise 1.10)
var[x+z]=(x+zE[x+z])2p(x)p(z)dx dz =(xE[x])2p(x)dx+(zE[z])2p(z)dz =var(x)+var(z) \begin{aligned} \operatorname{var}[x+z] &=\iint(x+z-\mathbb{E}[x+z])^{2} p(x) p(z) \mathrm{d} x \mathrm{~d} z \ &=\int(x-\mathbb{E}[x])^{2} p(x) \mathrm{d} x+\int(z-\mathbb{E}[z])^{2} p(z) \mathrm{d} z \ &=\operatorname{var}(x)+\operatorname{var}(z) \end{aligned}

其中 (x+zE[x+z])2=(xE[x])2+(zE[z])2+2(xE[x])(zE[z])(x+z-\mathbb{E}[x+z])^{2}=(x-\mathbb{E}[x])^{2}+(z-\mathbb{E}[z])^{2}+2(x-\mathbb{E}[x])(z-\mathbb{E}[z]),因为独立最后一项积分为0

对于两个随机变量xxyy,他们的协方差(covariance)的定义为:

cov[x,y]=Ex,y[xE[x]yE[y]]=Ex,y[xy]E[x]E[y] \begin{aligned} \operatorname{cov}[x, y] &=\mathbb{E}_{x, y}[{x-\mathbb{E}[x]}{y-\mathbb{E}[y]}] \\ &=\mathbb{E}_{x, y}[x y]-\mathbb{E}[x] \mathbb{E}[y] \end{aligned}

表达了xxyy 一起变换 的程度

对于两个由随机变量组成的向量x\mathbf{x}y\mathbf{y},他们的协方差以矩阵形式给出:

cov[x,y]=Ex,y[{xE[x]}{yTE[yT]}]=Ex,y[xyT]E[x]E[yT] \begin{aligned} \operatorname{cov}[\mathrm{x}, \mathbf{y}] &=\mathbb{E}_{\mathbf{x}, \mathbf{y}} \left[\{\mathbf{x}-\mathbb{E}[\mathbf{x}]\}\left\{\mathbf{y}^{\mathrm{T}}-\mathbb{E}\left[\mathbf{y}^{\mathrm{T}}\right]\right\}\right] \\ &=\mathbb{E}_{\mathbf{x}, \mathbf{y}}\left[\mathrm{xy}^{\mathrm{T}}\right]-\mathbb{E}[\mathrm{x}] \mathbb{E}\left[\mathbf{y}^{\mathrm{T}}\right] \end{aligned}

1.2.3 贝叶斯概率 (Bayesoan probabilities)

上面概率解释偏向经典的频率派(frequentist)解释,下面开始转换到贝叶斯的视角:概率其实提供了一种不确定性的量化

Now we turn to the more general Bayesian view, in which probabilities provide a quantification of uncertainty.

贝叶斯派 Vs 频率派:

  1. 频率学派的参数固定,数据根据固定参数随机产生;贝叶斯学派认为参数也是一个随机变量,也有概率分布。也就是说,贝叶斯学派才有p(w)p(\mathbf{w}) 这个东西
  2. 频率学派没有先验概率,使用最大似然估计(maximum likelihood estimator,MLE),容易过拟合,而贝叶斯学派可以使用最大后验估计(MAP),可以一定程度上避免过拟合。严格来说MAP也不是纯贝叶斯的方法,真正的贝叶斯方法,需要算出参数的概率分布。
  3. 频率学派的重点是优化问题,优化一个损失函数的目标;贝叶斯学派的重点是积分问题,后验概率中分母的那个积分(也叫配分函数)的计算。
    真正的贝叶斯方法除了做MAP之外,一般有两步:1. 贝叶斯推断/估计 计算p(w|D)主要是一个积分问题 2.贝叶斯决策/预测,使用w预测新来的数据的概率

转自:https://zhuanlan.zhihu.com/p/365934431

假设我们观察到的变量是tnt_{n},我们对一些参数w\mathbf{w}进行推断时,可以在观察数据之前 ,以先验概率分布p(w)p(\mathbf{w})的形式来捕捉(capture)对w\mathbf{w}的假设

p(wD)=p(Dw)p(w)p(D)p(\mathbf{w} \mid \mathcal{D})=\frac{p(\mathcal{D} \mid \mathbf{w}) p(\mathbf{w})}{p(\mathcal{D})}

似然(likelihood): 贝叶斯右边的 p(Dw)p(\mathcal{D} \mid \mathbf{w}),因为他表达了在w\mathbf{w}参数下,观察数据集D\mathcal{D}的概率,可以认为是w\mathbf{w}的一个函数。注意!似然不是w\mathbf{w}上的概率分布,并且对于w\mathbf{w}的积分不一定等于1

因此,贝叶斯公式可以表达为下述:

 posterior  likelihood × prior \text { posterior } \propto \text { likelihood } \times\text { prior }

p(wD)p(Dw)×p(w)p(\mathbf{w} \mid \mathcal{D}) \propto p(\mathcal{D} \mid \mathbf{w}) \times p(\mathbf{w})

 后验  似然 × 先验 \text { 后验 } \propto \text { 似然 } \times\text { 先验 }

这里其实主要描述的是对w\mathbf{w}的不确定性的测量,先验、后验、似然都是针对w\mathbf{w}来说的

贝叶斯公式中的分母 p(D)p(\mathcal{D})是为了概率进行归一化的,可以表达为下面的这种形式:

p(D)=p(Dw)p(w)dwp(\mathcal{D})=\int p(\mathcal{D} \mid \mathbf{w}) p(\mathbf{w}) \mathrm{d} \mathbf{w}


共轭先验:

如果后验概率p(wD)p(\mathbf{w} \mid \mathcal{D})和先验概率p(w)p(\mathbf{w})满足同样的分布律,那么先验分布和后验分布被称作共轭分布。先验分布叫做似然函数的共轭先验分布。

p(wD)=p(w,D)p(D)p(\mathbf{w} \mid \mathcal{D}) = \frac{p(\mathbf{w} , \mathcal{D})}{p(\mathcal{D})}

举个例子:

Beta分布是二项式分布的共轭先验分布。

Dirichlet分布是多项式分布的共轭分布。

常见的共轭分布可以在wikipedia上查到

共轭的意思就是,以Beta分布和二项式分布为例,数据符合二项式分布时,参数的先验分布和后验分布都能保持Beta分布的形式

这种能够在先验分布中赋予参数明确的物理意义,这个物理意义可以延续到后续分布中进行解释

1.2.4 高斯分布

单实值变量高斯

单实值变量xx的高斯分布定义为:

N(xμ,σ2)=1(2πσ2)1/2exp{12σ2(xμ)2}\mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\}

其中两个参数:μ\mu:均值;σ2\sigma^{2}: 方差

σ\sigma称为标准差,β=1σ2\beta=\frac{1}{\sigma^{2}}方差的倒数称为精度(precision)

可以看到高斯分布满足概率的条件:

N(xμ,σ2)dx=1\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) \mathrm{d} x=1

N(xμ,σ2)>0\mathcal{N}\left(x \mid \mu, \sigma^{2}\right)>0

高斯的均值:

E[x]=N(xμ,σ2)x dx=μ\mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x \mathrm{~d} x=\mu

E[x2]=N(xμ,σ2)x2 dx=μ2+σ2\mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x^{2} \mathrm{~d} x=\mu^{2}+\sigma^{2}

结合上式可得高斯的方差:

var[x]=E[x2]E[x]2=σ2\operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2}=\sigma^{2}

多元高斯

对于包含着连续变量的 DD 维向量 x\mathbf{x} ,高斯分布以如下形式给出:

N(xμ,Σ)=1(2π)D/21Σ1/2exp{12(xμ)TΣ1(xμ)}\mathcal{N}(\mathrm{x} \mid \mu, \Sigma)=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\Sigma|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathrm{x}-\mu)^{\mathrm{T}} \Sigma^{-1}(\mathrm{x}-\mu)\right\}

μ\mathbf{\mu}称为均值,D×DD\times D的矩阵Σ\Sigma称为协方差,Σ|\Sigma|表示Σ\Sigma的行列式

单变量高斯的N次观察

现在,假设我们有一个观察到的数据集x=(x1,,xN)T\bm{x}=\left(x_{1}, \ldots, x_{N}\right)^{\mathrm{T}},表示对一个变量xxNN次观察

注意,这里的x\bm{x}和上面的多变量高斯中的x\mathbf{x}不同,这里指的是对一个变量xx(标量)的N次观察得到的数据集,多变量高斯中的x=(x1,,xN)D\mathbf{x}=\left(x_{1}, \ldots, x_{N}\right)^{\mathrm{D}} 指的是多个变量

我们假设观测值独立于均值为μ\mu,方差为σ2\sigma^{2}的高斯,并且希望从这个数据集中确定高斯的参数

独立同分布 (independent and identically distributed, i.i.d):从同一个分布中独立抽取的数据点

Data points that are drawn independently from the same distribution are said to be independent and identically distributed, which is often abbreviated to i.i.d.

因为数据集是独立同分布的,所以他们的联合概率根据乘法法则就可以直接给出:

p(xμ,σ2)=n=1NN(xnμ,σ2)p\left(\bm{x} \mid \mu, \sigma^{2}\right)=\prod_{n=1}^{N} \mathcal{N}\left(x_{n} \mid \mu, \sigma^{2}\right)

这个时候,最重要的不是看数据点怎么样了,而是把p(xμ,σ2)p\left(\bm{x} \mid \mu, \sigma^{2}\right)看成是μ\muσ\sigma的函数,这也是贝叶斯派比较重要的一个观点,下面就是要怎么去求解这两个参数

书里面对于高斯的likelihood函数我觉得说的比较清楚,也就是在参数μ\muσ\sigma下,观察数据得到的概率,图中的公式(1.53)也就是上面的公式p(xμ,σ2)p\left(\bm{x} \mid \mu, \sigma^{2}\right)

求解最大似然(MAP)

所以,最大似然其实就是在求解 maxp(xμ,σ2)\max{p\left(\bm{x} \mid \mu, \sigma^{2}\right)},非常容易理解

因为高斯的形式当中有求积,所以取对数变成求和

lnp(xμ,σ2)=12σ2n=1N(xnμ)2N2lnσ2N2ln(2π)\ln p\left(\bm{x} \mid \mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}-\frac{N}{2} \ln \sigma^{2}-\frac{N}{2} \ln (2 \pi)

所以 maxlnp(xμ,σ2)\max{\ln p\left(\bm{x} \mid \mu, \sigma^{2}\right)}

μML=1Nn=1Nxn\mu_{\mathrm{ML}}=\frac{1}{N} \sum_{n=1}^{N} x_{n}

σML2=1Nn=1N(xnμML)2\sigma_{\mathrm{ML}}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{\mathrm{ML}}\right)^{2}

得到的 μML\mu_{\mathrm{ML}}σML2\sigma_{\mathrm{ML}}^{2} 被称作采样均值 (sample mean) 和 采样方差 (sample variance)。并且这个是有偏估计,可以通过计算E[μML]\mathbb{E}[\mu_{ML}]E[σML2]\mathbb{E}[\sigma_{ML}^{2}]得到

E[μML]=μ\mathbb{E}\left[\mu_{\mathrm{ML}}\right]=\mu

E[σML2]=(N1N)σ2\mathbb{E}\left[\sigma_{\mathrm{ML}}^{2}\right]=\left(\frac{N-1}{N}\right) \sigma^{2}

这里需要推导一下,首先是E[μML]\mathbb{E}\left[\mu_{\mathrm{ML}}\right]是无偏的:

E[μML]=E[1Nn=1Nxn]=1Nn=1NE[xn]=μ\mathbb{E}\left[\mu_{\mathrm{ML}}\right] =\mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N} x_{n}\right] =\frac{1}{N} \sum_{n=1}^{N} \mathbb{E}\left[ x_{n}\right] = \mu

其次,E[σML2]\mathbb{E}\left[\sigma_{\mathrm{ML}}^{2}\right]是有偏的

E[σML2]=E[1Nn=1N(xnμML)2]=E[1Nn=1N(xn2+μML22xnμML)]=E[1Nn=1Nxn21Nn=1N(2xnμML)+μML2]=E[1Nn=1Nxn21N2μMLn=1N(xn)+μML2]=E[1Nn=1Nxn22μML2+μML2]=E[1Nn=1Nxn2μML2] \begin{aligned} \mathbb{E}\left[\sigma_{\mathrm{ML}}^{2}\right] & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{\mathrm{ML}}\right)^{2}\right] \\ & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}^{2}+\mu_{\mathrm{ML}}^{2}-2x_{n}\mu_{\mathrm{ML}}\right)\right] \\ & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}x_{n}^{2}-\frac{1}{N}\sum_{n=1}^{N}\left(2x_{n}\mu_{\mathrm{ML}}\right)+\mu_{\mathrm{ML}}^{2}\right] \\ & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}x_{n}^{2}-\frac{1}{N}2\mu_{\mathrm{ML}}\sum_{n=1}^{N}\left(x_{n}\right)+\mu_{\mathrm{ML}}^{2}\right] \\ & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}x_{n}^{2}-2\mu_{\mathrm{ML}}^{2}+\mu_{\mathrm{ML}}^{2}\right] \\ & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}x_{n}^{2}-\mu_{\mathrm{ML}}^{2}\right] \end{aligned}

这里最好分开看容易理解

对于第一项 E[1Nn=1Nxn2]=1Nn=1NE[xn2]\mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}x_{n}^{2}\right] = \frac{1}{N} \sum_{n=1}^{N}\mathbb{E}\left[x_{n}^{2} \right],

其中,根据方差公式可以得到: E[xn2]=σ2+μ2\mathbb{E}\left[x_{n}^{2}\right]=\sigma^{2}+\mu^{2}

对于第二项 E[μML2]\mathbb{E}\left[\mu_{\mathrm{ML}}^{2}\right]可以看做是对μML\mu_{\mathrm{ML}}的估计,即根据方差公式可以得到:

E[μML2]=D(μML)+E[μML]2=D[1Nn=1Nxn]+E[μ]2=1N2n=1ND[xn]+E[μ]2=1ND[x]+μ2=1Nσ2+μ2 \begin{aligned} \mathbb{E}\left[\mu_{\mathrm{ML}}^{2}\right]&=\mathbb{D}(\mu_{\mathrm{ML}})+\mathbb{E}\left[\mu_{\mathrm{ML}}\right]^{2}\\ &=\mathbb{D}\left[\frac{1}{N} \sum_{n=1}^{N} x_{n}\right] + \mathbb{E}\left[\mu\right]^{2} \\ &=\frac{1}{N^{2}}\sum_{n=1}^{N}\mathbb{D}\left[x_{n}\right] + \mathbb{E}\left[\mu\right]^{2} \\ &=\frac{1}{N}\mathbb{D}[x]+\mu^{2} \\ &=\frac{1}{N}\sigma^{2} + \mu^{2} \end{aligned}

其中D\mathbb{D}为方差符号

上述都用到的一个概念:xix_{i}x\bm{x}的一个实例,x\bm{x}服从什么分布,xix_{i}也服从,即E[xi]=E[x]\mathbb{E}[x_{i}]=\mathbb{E}[\bm{x}], D[xi]=D[x]\mathbb{D}[x_{i}]=\mathbb{D}[\bm{x}]

综上:
E[σML2]=σ2+μ2(1Nσ2+μ2)=N1Nσ2\mathbb{E}\left[\sigma_{\mathrm{ML}}^{2}\right]=\sigma^{2}+\mu^{2} - (\frac{1}{N}\sigma^{2}+\mu^{2})=\frac{N-1}{N}\sigma^{2}

1.5 决策论 (Decision Theory)

决策论在于概率论相结合时,可以让我们在涉及不确定性的情况下做出最佳决策

问题:给定一个向量x\mathbf{x}与相应的目标t\mathbf{t},求对于x\mathbf{x}中的一个新的值,预测得到的t\mathbf{t}

以检测X-ray的癌症病症为例,输入的x\mathbf{x}是图像中像素值的集合,输出的变量tt将代表是不是患有癌症

有癌症以C1C_{1}代表,没有癌症以C2C_{2}代表,同时可以使用数字来代替符号,即t=0C1;t=0C2t=0 \leftrightarrow C_{1};\quad t=0 \leftrightarrow C_{2}

我们现在关心的是,对于一副给定病人X-ray的图像,去判断病人患癌的概率,即p(Ckx)p(C_{k}|\mathbf{x}),可以使用贝叶斯公式进行如下表达:

p(Ckx)=p(xCk)p(Ck)p(x)p(C_{k}|\mathbf{x})=\frac{p(\mathbf{x}|C_{k})p(C_{k})}{p(\mathbf{x})}

这里,p(Ck)p(C_{k})可以成为对类别CkC_{k}的先验(即在不做X-ray之前,判断一个人是否患癌的概率);

p(xCk)p(\mathbf{x}|C_{k})成为相对应的后验

1.5.1 最小误差

Share on

MiaoMiaoYang
WRITTEN BY
MiaoMiaoYang