前沿
2021.06.18 开始从头攻克PRML
1.2 概率论 (Probability Theory)
联合概率、边缘概率和条件概率
对于两个随机变量X X X 和Y Y Y
X X X 可以取值:x i x_{i} x i ,其中i = 1 , ⋯ , M i=1,\cdots,M i = 1 , ⋯ , M ;同理,Y Y Y 可以取值:y j y_{j} y j ,其中j = 1 , , ⋯ , L j=1,,\cdots, L j = 1 , , ⋯ , L
考虑一个N N N 次实验
令得到X = x i X=x_{i} X = x i 且Y = y j Y=y_{j} Y = y j 的结果实验次数为n i j n_{ij} n i j
令得到X = x i X=x_{i} X = x i 结果的实验次数为c i c_{i} c i
令得到Y = y j Y=y_{j} Y = y j 的结果的试验次数为r j r_{j} r j
联合概率(joint probability)
那么X = x i X=x_{i} X = x i 且Y = y j Y=y_{j} Y = y j 的联合概率是p ( X = x i , Y = y j ) = n i j N p\left(X=x_{i}, Y=y_{j}\right)=\frac{n_{i j}}{N} p ( X = x i , Y = y j ) = N n i j
边缘概率(marginal probability)
X = x i X=x_{i} X = x i 边缘概率是p ( X = x i ) = c i N = ∑ j = 1 L p ( X = x i , Y = y j ) p\left(X=x_{i}\right)=\frac{c_{i}}{N}=\sum_{j=1}^{L} p\left(X=x_{i}, Y=y_{j}\right) p ( X = x i ) = N c i = ∑ j = 1 L p ( X = x i , Y = y j )
条件概率(conditional probability)
当给定X = x i X=x_{i} X = x i 时,Y = y j Y=y_{j} Y = y j 的条件概率是p ( Y = y j ∣ X = x i ) = n i j c i p\left(Y=y_{j} \mid X=x_{i}\right)=\frac{n_{i j}}{c_{i}} p ( Y = y j ∣ X = x i ) = c i n i j
由上面的概率定义,可以得到下面两个法则:
概率的求和法则
p ( X ) = ∑ Y p ( X , Y ) p(X)=\sum_{Y} p(X, Y) p ( X ) = Y ∑ p ( X , Y )
通过p ( X = x i ) = ∑ j = 1 L p ( X = x i , Y = y j ) p\left(X=x_{i}\right)=\sum_{j=1}^{L} p\left(X=x_{i}, Y=y_{j}\right) p ( X = x i ) = ∑ j = 1 L p ( X = x i , Y = y j ) 得到
概率的乘法法则
p ( X , Y ) = p ( Y ∣ X ) p ( X ) p(X, Y)=p(Y \mid X) p(X) p ( X , Y ) = p ( Y ∣ X ) p ( X )
由p ( X = x i , Y = y j ) = n i j N = n i j c i ⋅ c i N = p ( Y = y j ∣ X = x i ) p ( X = x i ) p\left(X=x_{i}, Y=y_{j}\right)=\frac{n_{i j}}{N}=\frac{n_{i j}}{c_{i}} \cdot \frac{c_{i}}{N}=p\left(Y=y_{j} \mid X=x_{i}\right) p\left(X=x_{i}\right) p ( X = x i , Y = y j ) = N n i j = c i n i j ⋅ N c i = p ( Y = y j ∣ X = x i ) p ( X = x i ) 得到
联合概率满足对称性
p ( X , Y ) = p ( Y , X ) p(X, Y)=p(Y, X) p ( X , Y ) = p ( Y , X )
贝叶斯公式
p ( Y ∣ X ) = p ( X ∣ Y ) p ( Y ) p ( X ) p(Y \mid X)=\frac{p(X \mid Y) p(Y)}{p(X)} p ( Y ∣ X ) = p ( X ) p ( X ∣ Y ) p ( Y )
可以使用求和法则将分母表达为下面的式子:
p ( X ) = ∑ Y p ( X ∣ Y ) p ( Y ) p(X)=\sum_{Y} p(X \mid Y) p(Y) p ( X ) = Y ∑ p ( X ∣ Y ) p ( Y )
1.2.1 概率密度 (Probability densities)
概率密度
对于落在( x , x + δ x ) (x,x+\delta x) ( x , x + δ x ) 区间的实值连续变量 x x x ,p ( x ) δ x , δ x → ∞ p(x)\delta x, \delta x\rightarrow \infty p ( x ) δ x , δ x → ∞ 被称为x x x 的概率密度
连续型变量的概率表示
p ( x ∈ ( a , b ) ) = ∫ a b p ( x ) d x p(x \in(a, b))=\int_{a}^{b} p(x) \mathrm{d} x p ( x ∈ ( a , b ) ) = ∫ a b p ( x ) d x
其中,满足一下两条性质
p ( x ) ⩾ 0 p(x) \geqslant 0 p ( x ) ⩾ 0
∫ − ∞ ∞ p ( x ) d x = 1 \int_{-\infty}^{\infty} p(x) \mathrm{d} x=1 ∫ − ∞ ∞ p ( x ) d x = 1
累计密度函数(cumulative distribution)
x x x 在( − ∞ , z ) (-\infty, z) ( − ∞ , z ) 上的概率,成为累计密度函数
P ( z ) = ∫ − ∞ z p ( x ) d x P(z)=\int_{-\infty}^{z} p(x) \mathrm{d} x P ( z ) = ∫ − ∞ z p ( x ) d x
多个连续型变量
对于多个连续型变量x 1 , ⋯ , x D x_{1},\cdots,x_{D} x 1 , ⋯ , x D ,组成的向量x \mathbf{x} x
定义联合概率密度p ( x ) = p ( x 1 , … , x D ) p(\mathrm{x})=p\left(x_{1}, \ldots, x_{D}\right) p ( x ) = p ( x 1 , … , x D )
多元概率密度必须满足
p ( x ) ⩾ 0 ∫ p ( x ) d x = 1 \begin{array}{r} p(\mathbf{x}) \geqslant 0 \\ \\ \int p(\mathbf{x}) \mathrm{d} \mathbf{x}=1\end{array} p ( x ) ⩾ 0 ∫ p ( x ) d x = 1
如果x \mathbf{x} x 是一个离散变量,那么p ( x ) p(\mathbf{x}) p ( x ) 有时成为概率质量函数(probability mass function);
因为他被视为一组集中在x \mathbf{x} x 上的概率质量
对于概率密度来说,求和、乘法法则、贝叶斯同样适用于概率密度
p ( x ) = ∫ p ( x , y ) d y p ( x , y ) = p ( y ∣ x ) p ( x ) \begin{aligned} p(x) &=\int p(x, y) \mathrm{d} y \\ p(x, y) &=p(y \mid x) p(x) \end{aligned} p ( x ) p ( x , y ) = ∫ p ( x , y ) d y = p ( y ∣ x ) p ( x )
1.2.2 期望(Expectations)和协方差(Covariances)
对于函数f ( x ) f(x) f ( x ) ,在一个概率分配p ( x ) p(x) p ( x ) 下的平均值成为期望(Expectations),记为E [ f ] \mathbb{E}[f] E [ f ]
离散型分布
E [ f ] = ∑ x p ( x ) f ( x ) \mathbb{E}[f]=\sum_{x} p(x) f(x) E [ f ] = x ∑ p ( x ) f ( x ) 平均值由不同x x x 对应的概率进行加权
连续性分布
E [ f ] = ∫ p ( x ) f ( x ) d x \mathbb{E}[f]=\int p(x) f(x) \mathrm{d} x E [ f ] = ∫ p ( x ) f ( x ) d x
如果从概率分布或者概率密度中取出有限数量的N个点,那么期望可以近似为:
E [ f ] ≃ 1 N ∑ n = 1 N f ( x n ) \mathbb{E}[f] \simeq \frac{1}{N} \sum_{n=1}^{N} f\left(x_{n}\right) E [ f ] ≃ N 1 n = 1 ∑ N f ( x n )
这个结果在采样方法中特别有用,采样当中一般会N → ∞ N\rightarrow \infty N → ∞
多元期望
有时会考虑多变量函数的期望,但是在这个期望的计算过程中,需要指明是根据哪个变量的分布进行的平均 ,使用下标来进行指明
E x [ f ( x , y ) ] \mathbb{E}_{x}[f(x, y)] E x [ f ( x , y ) ]
表示函数f ( x , y ) f(x,y) f ( x , y ) 相对于x x x 分布的相对值,最后的结果是关于y y y 的一个函数
当多元变量相互独立时 ,期望服从线性性质:
E [ a x + b y + c z ] = a E [ x ] + b E [ y ] + c E [ z ] \mathbb{E}[ax+by+cz] = a\mathbb{E}[x]+b\mathbb{E}[y]+c\mathbb{E}[z] E [ a x + b y + c z ] = a E [ x ] + b E [ y ] + c E [ z ]
E [ x 1 x 2 ⋯ x n ] = E [ x 1 ] E [ x 2 ] ⋯ E [ x n ] \mathbb{E}[x_{1}x_{2}\cdots x_{n}]=\mathbb{E}[x_{1}]\mathbb{E}[x_{2}]\cdots\mathbb{E}[x_{n}] E [ x 1 x 2 ⋯ x n ] = E [ x 1 ] E [ x 2 ] ⋯ E [ x n ]
简要证明一下 (Exercise 1.10)E [ x + z ] = ∬ ( x + z ) p ( x ) p ( z ) d x d z = ∫ x p ( x ) d x + ∫ z p ( z ) d z = E [ x ] + E [ z ] \begin{aligned} \mathbb{E}[x+z] &=\iint(x+z) p(x) p(z) \mathrm{d} x \mathrm{~d} z \ &=\int x p(x) \mathrm{d} x+\int z p(z) \mathrm{d} z \ &=\mathbb{E}[x]+\mathbb{E}[z] \end{aligned} E [ x + z ] = ∬ ( x + z ) p ( x ) p ( z ) d x d z = ∫ x p ( x ) d x + ∫ z p ( z ) d z = E [ x ] + E [ z ]
因为独立才有p ( x , z ) = p ( x ) p ( z ) p(x, z)=p(x) p(z) p ( x , z ) = p ( x ) p ( z )
条件期望(conditional expectation)
对于一个条件分布,同样有相对应的条件期望
E x [ f ∣ y ] = ∑ x p ( x ∣ y ) \mathbb{E}_{x} [f \mid y]=\sum_{x} p(x \mid y) E x [ f ∣ y ] = x ∑ p ( x ∣ y )
方差(variance)和协方差(covariance)
下面讨论方差和协方差,f ( x ) f(x) f ( x ) 的方差 定义为:
var [ f ] = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ] \operatorname{var}[f]=\mathbb{E}\left[(f(x)-\mathbb{E}[f(x)])^{2}\right] v a r [ f ] = E [ ( f ( x ) − E [ f ( x ) ] ) 2 ]
它更多评价f ( x ) f(x) f ( x ) 围绕它均值的变化程度,一般在计算中写成f ( x ) f(x) f ( x ) 和f ( x ) 2 f(x)^{2} f ( x ) 2 的期望形式方便计算:
var [ f ] = E [ f ( x ) 2 ] − E [ f ( x ) ] 2 \operatorname{var}[f]=\mathbb{E}\left[f(x)^{2}\right]-\mathbb{E}[f(x)]^{2} v a r [ f ] = E [ f ( x ) 2 ] − E [ f ( x ) ] 2
特别的,对于随机变量x x x ,他的方差是:
var [ x ] = E [ x 2 ] − E [ x ] 2 \operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2} v a r [ x ] = E [ x 2 ] − E [ x ] 2
当多变量相互独立是,方差服从性质:
var [ n x ] = n 2 var [ x ] \operatorname{var}[nx]=n^{2}\operatorname{var}[x] v a r [ n x ] = n 2 v a r [ x ]
var [ x 1 x 2 ⋯ x n ] = var [ x 1 ] + var [ x 2 ] ⋯ var [ x n ] \operatorname{var}[x_{1}x_{2}\cdots x_{n}]=\operatorname{var}[x_{1}]+\operatorname{var}[x_{2}]\cdots\operatorname{var}[x_{n}] v a r [ x 1 x 2 ⋯ x n ] = v a r [ x 1 ] + v a r [ x 2 ] ⋯ v a r [ x n ]
简要证明一下 (Exercise 1.10)var [ x + z ] = ∬ ( x + z − E [ x + z ] ) 2 p ( x ) p ( z ) d x d z = ∫ ( x − E [ x ] ) 2 p ( x ) d x + ∫ ( z − E [ z ] ) 2 p ( z ) d z = var ( x ) + var ( z ) \begin{aligned} \operatorname{var}[x+z] &=\iint(x+z-\mathbb{E}[x+z])^{2} p(x) p(z) \mathrm{d} x \mathrm{~d} z \ &=\int(x-\mathbb{E}[x])^{2} p(x) \mathrm{d} x+\int(z-\mathbb{E}[z])^{2} p(z) \mathrm{d} z \ &=\operatorname{var}(x)+\operatorname{var}(z) \end{aligned} v a r [ x + z ] = ∬ ( x + z − E [ x + z ] ) 2 p ( x ) p ( z ) d x d z = ∫ ( x − E [ x ] ) 2 p ( x ) d x + ∫ ( z − E [ z ] ) 2 p ( z ) d z = v a r ( x ) + v a r ( z )
其中 ( x + z − E [ x + z ] ) 2 = ( x − E [ x ] ) 2 + ( z − E [ z ] ) 2 + 2 ( x − E [ x ] ) ( z − E [ z ] ) (x+z-\mathbb{E}[x+z])^{2}=(x-\mathbb{E}[x])^{2}+(z-\mathbb{E}[z])^{2}+2(x-\mathbb{E}[x])(z-\mathbb{E}[z]) ( x + z − E [ x + z ] ) 2 = ( x − E [ x ] ) 2 + ( z − E [ z ] ) 2 + 2 ( x − E [ x ] ) ( z − E [ z ] ) ,因为独立最后一项积分为0
对于两个随机变量x x x 和y y y ,他们的协方差(covariance)的 定义为:
cov [ x , y ] = E x , y [ x − E [ x ] y − E [ y ] ] = E x , y [ x y ] − E [ x ] E [ y ] \begin{aligned} \operatorname{cov}[x, y] &=\mathbb{E}_{x, y}[{x-\mathbb{E}[x]}{y-\mathbb{E}[y]}] \\ &=\mathbb{E}_{x, y}[x y]-\mathbb{E}[x] \mathbb{E}[y] \end{aligned} c o v [ x , y ] = E x , y [ x − E [ x ] y − E [ y ] ] = E x , y [ x y ] − E [ x ] E [ y ]
表达了x x x 和y y y 一起变换 的程度
对于两个由随机变量组成的向量x \mathbf{x} x 和y \mathbf{y} y ,他们的协方差以矩阵形式给出:
cov [ x , y ] = E x , y [ { x − E [ x ] } { y T − E [ y T ] } ] = E x , y [ x y T ] − E [ x ] E [ y T ] \begin{aligned} \operatorname{cov}[\mathrm{x}, \mathbf{y}] &=\mathbb{E}_{\mathbf{x}, \mathbf{y}} \left[\{\mathbf{x}-\mathbb{E}[\mathbf{x}]\}\left\{\mathbf{y}^{\mathrm{T}}-\mathbb{E}\left[\mathbf{y}^{\mathrm{T}}\right]\right\}\right] \\ &=\mathbb{E}_{\mathbf{x}, \mathbf{y}}\left[\mathrm{xy}^{\mathrm{T}}\right]-\mathbb{E}[\mathrm{x}] \mathbb{E}\left[\mathbf{y}^{\mathrm{T}}\right] \end{aligned} c o v [ x , y ] = E x , y [ { x − E [ x ] } { y T − E [ y T ] } ] = E x , y [ x y T ] − E [ x ] E [ y T ]
1.2.3 贝叶斯概率 (Bayesoan probabilities)
上面概率解释偏向经典的频率派(frequentist)解释,下面开始转换到贝叶斯的视角:概率其实提供了一种不确定性的量化
Now we turn to the more general Bayesian view, in which probabilities provide a quantification of uncertainty.
贝叶斯派 Vs 频率派:
频率学派的参数固定,数据根据固定参数随机产生;贝叶斯学派认为参数也是一个随机变量,也有概率分布 。也就是说,贝叶斯学派才有p ( w ) p(\mathbf{w}) p ( w ) 这个东西 频率学派没有先验概率,使用最大似然估计(maximum likelihood estimator,MLE),容易过拟合,而贝叶斯学派可以使用最大后验估计(MAP),可以一定程度上避免过拟合。严格来说MAP也不是纯贝叶斯的方法,真正的贝叶斯方法,需要算出参数的概率分布。 频率学派的重点是优化问题,优化一个损失函数的目标;贝叶斯学派的重点是积分问题,后验概率中分母的那个积分(也叫配分函数)的计算。 真正的贝叶斯方法除了做MAP之外,一般有两步:1. 贝叶斯推断/估计 计算p(w|D)主要是一个积分问题 2.贝叶斯决策/预测,使用w预测新来的数据的概率 转自:https://zhuanlan.zhihu.com/p/365934431
假设我们观察到的变量是t n t_{n} t n ,我们对一些参数w \mathbf{w} w 进行推断时,可以在观察数据之前 ,以先验概率分布p ( w ) p(\mathbf{w}) p ( w ) 的形式来捕捉(capture)对w \mathbf{w} w 的假设
p ( w ∣ D ) = p ( D ∣ w ) p ( w ) p ( D ) p(\mathbf{w} \mid \mathcal{D})=\frac{p(\mathcal{D} \mid \mathbf{w}) p(\mathbf{w})}{p(\mathcal{D})} p ( w ∣ D ) = p ( D ) p ( D ∣ w ) p ( w )
似然(likelihood): 贝叶斯右边的 p ( D ∣ w ) p(\mathcal{D} \mid \mathbf{w}) p ( D ∣ w ) ,因为他表达了在w \mathbf{w} w 参数下,观察数据集D \mathcal{D} D 的概率,可以认为是w \mathbf{w} w 的一个函数。注意!似然不是w \mathbf{w} w 上的概率分布,并且对于w \mathbf{w} w 的积分不一定等于1
因此,贝叶斯公式可以表达为下述:
posterior ∝ likelihood × prior \text { posterior } \propto \text { likelihood } \times\text { prior } posterior ∝ likelihood × prior
p ( w ∣ D ) ∝ p ( D ∣ w ) × p ( w ) p(\mathbf{w} \mid \mathcal{D}) \propto p(\mathcal{D} \mid \mathbf{w}) \times p(\mathbf{w}) p ( w ∣ D ) ∝ p ( D ∣ w ) × p ( w )
后验 ∝ 似然 × 先验 \text { 后验 } \propto \text { 似然 } \times\text { 先验 } 后验 ∝ 似然 × 先验
这里其实主要描述的是对w \mathbf{w} w 的不确定性的测量,先验、后验、似然都是针对w \mathbf{w} w 来说的
贝叶斯公式中的分母 p ( D ) p(\mathcal{D}) p ( D ) 是为了概率进行归一化的,可以表达为下面的这种形式:
p ( D ) = ∫ p ( D ∣ w ) p ( w ) d w p(\mathcal{D})=\int p(\mathcal{D} \mid \mathbf{w}) p(\mathbf{w}) \mathrm{d} \mathbf{w} p ( D ) = ∫ p ( D ∣ w ) p ( w ) d w
共轭先验:
如果后验概率p ( w ∣ D ) p(\mathbf{w} \mid \mathcal{D}) p ( w ∣ D ) 和先验概率p ( w ) p(\mathbf{w}) p ( w ) 满足同样的分布律,那么先验分布和后验分布被称作共轭分布。先验分布叫做似然函数的共轭先验分布。
p ( w ∣ D ) = p ( w , D ) p ( D ) p(\mathbf{w} \mid \mathcal{D}) = \frac{p(\mathbf{w} , \mathcal{D})}{p(\mathcal{D})} p ( w ∣ D ) = p ( D ) p ( w , D )
举个例子:
Beta分布是二项式分布的共轭先验分布。
Dirichlet分布是多项式分布的共轭分布。
常见的共轭分布可以在wikipedia 上查到
共轭的意思就是,以Beta分布和二项式分布为例,数据 符合二项式分布时,参数 的先验分布和后验分布都能保持Beta分布的形式
这种能够在先验分布中赋予参数明确的物理意义,这个物理意义可以延续到后续分布中进行解释
1.2.4 高斯分布
单实值变量高斯
单实值变量x x x 的高斯分布定义为:
N ( x ∣ μ , σ 2 ) = 1 ( 2 π σ 2 ) 1 / 2 exp { − 1 2 σ 2 ( x − μ ) 2 } \mathcal{N}\left(x \mid \mu, \sigma^{2}\right)=\frac{1}{\left(2 \pi \sigma^{2}\right)^{1 / 2}} \exp \left\{-\frac{1}{2 \sigma^{2}}(x-\mu)^{2}\right\} N ( x ∣ μ , σ 2 ) = ( 2 π σ 2 ) 1 / 2 1 exp { − 2 σ 2 1 ( x − μ ) 2 }
其中两个参数:μ \mu μ :均值;σ 2 \sigma^{2} σ 2 : 方差
σ \sigma σ 称为标准差,β = 1 σ 2 \beta=\frac{1}{\sigma^{2}} β = σ 2 1 方差的倒数称为精度(precision)
可以看到高斯分布满足概率的条件:
∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) d x = 1 \int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) \mathrm{d} x=1 ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) d x = 1
N ( x ∣ μ , σ 2 ) > 0 \mathcal{N}\left(x \mid \mu, \sigma^{2}\right)>0 N ( x ∣ μ , σ 2 ) > 0
高斯的均值:
E [ x ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x d x = μ \mathbb{E}[x]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x \mathrm{~d} x=\mu E [ x ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x d x = μ
E [ x 2 ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x 2 d x = μ 2 + σ 2 \mathbb{E}\left[x^{2}\right]=\int_{-\infty}^{\infty} \mathcal{N}\left(x \mid \mu, \sigma^{2}\right) x^{2} \mathrm{~d} x=\mu^{2}+\sigma^{2} E [ x 2 ] = ∫ − ∞ ∞ N ( x ∣ μ , σ 2 ) x 2 d x = μ 2 + σ 2
结合上式可得高斯的方差:
var [ x ] = E [ x 2 ] − E [ x ] 2 = σ 2 \operatorname{var}[x]=\mathbb{E}\left[x^{2}\right]-\mathbb{E}[x]^{2}=\sigma^{2} v a r [ x ] = E [ x 2 ] − E [ x ] 2 = σ 2
多元高斯
对于包含着连续变量的 D D D 维向量 x \mathbf{x} x ,高斯分布以如下形式给出:
N ( x ∣ μ , Σ ) = 1 ( 2 π ) D / 2 1 ∣ Σ ∣ 1 / 2 exp { − 1 2 ( x − μ ) T Σ − 1 ( x − μ ) } \mathcal{N}(\mathrm{x} \mid \mu, \Sigma)=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\Sigma|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathrm{x}-\mu)^{\mathrm{T}} \Sigma^{-1}(\mathrm{x}-\mu)\right\} N ( x ∣ μ , Σ ) = ( 2 π ) D / 2 1 ∣ Σ ∣ 1 / 2 1 exp { − 2 1 ( x − μ ) T Σ − 1 ( x − μ ) }
μ \mathbf{\mu} μ 称为均值,D × D D\times D D × D 的矩阵Σ \Sigma Σ 称为协方差,∣ Σ ∣ |\Sigma| ∣ Σ ∣ 表示Σ \Sigma Σ 的行列式
单变量高斯的N次观察
现在,假设我们有一个观察到的数据集x = ( x 1 , … , x N ) T \bm{x}=\left(x_{1}, \ldots, x_{N}\right)^{\mathrm{T}} x = ( x 1 , … , x N ) T ,表示对一个变量x x x 的N N N 次观察
注意,这里的x \bm{x} x 和上面的多变量高斯中的x \mathbf{x} x 不同,这里指的是对一个变量x x x (标量)的N次观察得到的数据集,多变量高斯中的x = ( x 1 , … , x N ) D \mathbf{x}=\left(x_{1}, \ldots, x_{N}\right)^{\mathrm{D}} x = ( x 1 , … , x N ) D 指的是多个变量
我们假设观测值独立于均值为μ \mu μ ,方差为σ 2 \sigma^{2} σ 2 的高斯,并且希望从这个数据集中确定高斯的参数
独立同分布 (independent and identically distributed, i.i.d) :从同一个分布中独立抽取的数据点
Data points that are drawn independently from the same distribution are said to be independent and identically distributed, which is often abbreviated to i.i.d.
因为数据集是独立同分布的,所以他们的联合概率根据乘法法则就可以直接给出:
p ( x ∣ μ , σ 2 ) = ∏ n = 1 N N ( x n ∣ μ , σ 2 ) p\left(\bm{x} \mid \mu, \sigma^{2}\right)=\prod_{n=1}^{N} \mathcal{N}\left(x_{n} \mid \mu, \sigma^{2}\right) p ( x ∣ μ , σ 2 ) = n = 1 ∏ N N ( x n ∣ μ , σ 2 )
这个时候,最重要的不是看数据点怎么样了,而是把p ( x ∣ μ , σ 2 ) p\left(\bm{x} \mid \mu, \sigma^{2}\right) p ( x ∣ μ , σ 2 ) 看成是μ \mu μ 和σ \sigma σ 的函数,这也是贝叶斯派比较重要的一个观点,下面就是要怎么去求解这两个参数
书里面对于高斯的likelihood函数我觉得说的比较清楚,也就是在参数μ \mu μ ,σ \sigma σ 下,观察数据得到的概率,图中的公式(1.53)也就是上面的公式p ( x ∣ μ , σ 2 ) p\left(\bm{x} \mid \mu, \sigma^{2}\right) p ( x ∣ μ , σ 2 ) 。
求解最大似然(MAP)
所以,最大似然其实就是在求解 max p ( x ∣ μ , σ 2 ) \max{p\left(\bm{x} \mid \mu, \sigma^{2}\right)} max p ( x ∣ μ , σ 2 ) ,非常容易理解
因为高斯的形式当中有求积,所以取对数变成求和
ln p ( x ∣ μ , σ 2 ) = − 1 2 σ 2 ∑ n = 1 N ( x n − μ ) 2 − N 2 ln σ 2 − N 2 ln ( 2 π ) \ln p\left(\bm{x} \mid \mu, \sigma^{2}\right)=-\frac{1}{2 \sigma^{2}} \sum_{n=1}^{N}\left(x_{n}-\mu\right)^{2}-\frac{N}{2} \ln \sigma^{2}-\frac{N}{2} \ln (2 \pi) ln p ( x ∣ μ , σ 2 ) = − 2 σ 2 1 n = 1 ∑ N ( x n − μ ) 2 − 2 N ln σ 2 − 2 N ln ( 2 π )
所以 max ln p ( x ∣ μ , σ 2 ) \max{\ln p\left(\bm{x} \mid \mu, \sigma^{2}\right)} max ln p ( x ∣ μ , σ 2 )
μ M L = 1 N ∑ n = 1 N x n \mu_{\mathrm{ML}}=\frac{1}{N} \sum_{n=1}^{N} x_{n} μ M L = N 1 n = 1 ∑ N x n
σ M L 2 = 1 N ∑ n = 1 N ( x n − μ M L ) 2 \sigma_{\mathrm{ML}}^{2}=\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{\mathrm{ML}}\right)^{2} σ M L 2 = N 1 n = 1 ∑ N ( x n − μ M L ) 2
得到的 μ M L \mu_{\mathrm{ML}} μ M L 和 σ M L 2 \sigma_{\mathrm{ML}}^{2} σ M L 2 被称作采样均值 (sample mean) 和 采样方差 (sample variance)。并且这个是有偏估计,可以通过计算E [ μ M L ] \mathbb{E}[\mu_{ML}] E [ μ M L ] 和E [ σ M L 2 ] \mathbb{E}[\sigma_{ML}^{2}] E [ σ M L 2 ] 得到
E [ μ M L ] = μ \mathbb{E}\left[\mu_{\mathrm{ML}}\right]=\mu E [ μ M L ] = μ
E [ σ M L 2 ] = ( N − 1 N ) σ 2 \mathbb{E}\left[\sigma_{\mathrm{ML}}^{2}\right]=\left(\frac{N-1}{N}\right) \sigma^{2} E [ σ M L 2 ] = ( N N − 1 ) σ 2
这里需要推导一下,首先是E [ μ M L ] \mathbb{E}\left[\mu_{\mathrm{ML}}\right] E [ μ M L ] 是无偏的:
E [ μ M L ] = E [ 1 N ∑ n = 1 N x n ] = 1 N ∑ n = 1 N E [ x n ] = μ \mathbb{E}\left[\mu_{\mathrm{ML}}\right] =\mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N} x_{n}\right] =\frac{1}{N} \sum_{n=1}^{N} \mathbb{E}\left[ x_{n}\right] = \mu E [ μ M L ] = E [ N 1 n = 1 ∑ N x n ] = N 1 n = 1 ∑ N E [ x n ] = μ
其次,E [ σ M L 2 ] \mathbb{E}\left[\sigma_{\mathrm{ML}}^{2}\right] E [ σ M L 2 ] 是有偏的
E [ σ M L 2 ] = E [ 1 N ∑ n = 1 N ( x n − μ M L ) 2 ] = E [ 1 N ∑ n = 1 N ( x n 2 + μ M L 2 − 2 x n μ M L ) ] = E [ 1 N ∑ n = 1 N x n 2 − 1 N ∑ n = 1 N ( 2 x n μ M L ) + μ M L 2 ] = E [ 1 N ∑ n = 1 N x n 2 − 1 N 2 μ M L ∑ n = 1 N ( x n ) + μ M L 2 ] = E [ 1 N ∑ n = 1 N x n 2 − 2 μ M L 2 + μ M L 2 ] = E [ 1 N ∑ n = 1 N x n 2 − μ M L 2 ] \begin{aligned} \mathbb{E}\left[\sigma_{\mathrm{ML}}^{2}\right] & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}-\mu_{\mathrm{ML}}\right)^{2}\right] \\ & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}\left(x_{n}^{2}+\mu_{\mathrm{ML}}^{2}-2x_{n}\mu_{\mathrm{ML}}\right)\right] \\ & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}x_{n}^{2}-\frac{1}{N}\sum_{n=1}^{N}\left(2x_{n}\mu_{\mathrm{ML}}\right)+\mu_{\mathrm{ML}}^{2}\right] \\ & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}x_{n}^{2}-\frac{1}{N}2\mu_{\mathrm{ML}}\sum_{n=1}^{N}\left(x_{n}\right)+\mu_{\mathrm{ML}}^{2}\right] \\ & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}x_{n}^{2}-2\mu_{\mathrm{ML}}^{2}+\mu_{\mathrm{ML}}^{2}\right] \\ & = \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}x_{n}^{2}-\mu_{\mathrm{ML}}^{2}\right] \end{aligned} E [ σ M L 2 ] = E [ N 1 n = 1 ∑ N ( x n − μ M L ) 2 ] = E [ N 1 n = 1 ∑ N ( x n 2 + μ M L 2 − 2 x n μ M L ) ] = E [ N 1 n = 1 ∑ N x n 2 − N 1 n = 1 ∑ N ( 2 x n μ M L ) + μ M L 2 ] = E [ N 1 n = 1 ∑ N x n 2 − N 1 2 μ M L n = 1 ∑ N ( x n ) + μ M L 2 ] = E [ N 1 n = 1 ∑ N x n 2 − 2 μ M L 2 + μ M L 2 ] = E [ N 1 n = 1 ∑ N x n 2 − μ M L 2 ]
这里最好分开看容易理解
对于第一项 E [ 1 N ∑ n = 1 N x n 2 ] = 1 N ∑ n = 1 N E [ x n 2 ] \mathbb{E}\left[\frac{1}{N} \sum_{n=1}^{N}x_{n}^{2}\right] = \frac{1}{N} \sum_{n=1}^{N}\mathbb{E}\left[x_{n}^{2} \right] E [ N 1 ∑ n = 1 N x n 2 ] = N 1 ∑ n = 1 N E [ x n 2 ] ,
其中,根据方差公式可以得到: E [ x n 2 ] = σ 2 + μ 2 \mathbb{E}\left[x_{n}^{2}\right]=\sigma^{2}+\mu^{2} E [ x n 2 ] = σ 2 + μ 2
对于第二项 E [ μ M L 2 ] \mathbb{E}\left[\mu_{\mathrm{ML}}^{2}\right] E [ μ M L 2 ] 可以看做是对μ M L \mu_{\mathrm{ML}} μ M L 的估计,即根据方差公式可以得到:
E [ μ M L 2 ] = D ( μ M L ) + E [ μ M L ] 2 = D [ 1 N ∑ n = 1 N x n ] + E [ μ ] 2 = 1 N 2 ∑ n = 1 N D [ x n ] + E [ μ ] 2 = 1 N D [ x ] + μ 2 = 1 N σ 2 + μ 2 \begin{aligned} \mathbb{E}\left[\mu_{\mathrm{ML}}^{2}\right]&=\mathbb{D}(\mu_{\mathrm{ML}})+\mathbb{E}\left[\mu_{\mathrm{ML}}\right]^{2}\\ &=\mathbb{D}\left[\frac{1}{N} \sum_{n=1}^{N} x_{n}\right] + \mathbb{E}\left[\mu\right]^{2} \\ &=\frac{1}{N^{2}}\sum_{n=1}^{N}\mathbb{D}\left[x_{n}\right] + \mathbb{E}\left[\mu\right]^{2} \\ &=\frac{1}{N}\mathbb{D}[x]+\mu^{2} \\ &=\frac{1}{N}\sigma^{2} + \mu^{2} \end{aligned} E [ μ M L 2 ] = D ( μ M L ) + E [ μ M L ] 2 = D [ N 1 n = 1 ∑ N x n ] + E [ μ ] 2 = N 2 1 n = 1 ∑ N D [ x n ] + E [ μ ] 2 = N 1 D [ x ] + μ 2 = N 1 σ 2 + μ 2
其中D \mathbb{D} D 为方差符号
上述都用到的一个概念:x i x_{i} x i 是x \bm{x} x 的一个实例,x \bm{x} x 服从什么分布,x i x_{i} x i 也服从,即E [ x i ] = E [ x ] \mathbb{E}[x_{i}]=\mathbb{E}[\bm{x}] E [ x i ] = E [ x ] , D [ x i ] = D [ x ] \mathbb{D}[x_{i}]=\mathbb{D}[\bm{x}] D [ x i ] = D [ x ]
综上:E [ σ M L 2 ] = σ 2 + μ 2 − ( 1 N σ 2 + μ 2 ) = N − 1 N σ 2 \mathbb{E}\left[\sigma_{\mathrm{ML}}^{2}\right]=\sigma^{2}+\mu^{2} - (\frac{1}{N}\sigma^{2}+\mu^{2})=\frac{N-1}{N}\sigma^{2} E [ σ M L 2 ] = σ 2 + μ 2 − ( N 1 σ 2 + μ 2 ) = N N − 1 σ 2
1.5 决策论 (Decision Theory)
决策论在于概率论相结合时,可以让我们在涉及不确定性的情况下做出最佳决策
问题:给定一个向量x \mathbf{x} x 与相应的目标t \mathbf{t} t ,求对于x \mathbf{x} x 中的一个新的值,预测得到的t \mathbf{t} t
以检测X-ray的癌症病症为例,输入的x \mathbf{x} x 是图像中像素值的集合,输出的变量t t t 将代表是不是患有癌症
有癌症以C 1 C_{1} C 1 代表,没有癌症以C 2 C_{2} C 2 代表,同时可以使用数字来代替符号,即t = 0 ↔ C 1 ; t = 0 ↔ C 2 t=0 \leftrightarrow C_{1};\quad t=0 \leftrightarrow C_{2} t = 0 ↔ C 1 ; t = 0 ↔ C 2
我们现在关心的是,对于一副给定病人X-ray的图像,去判断病人患癌的概率,即p ( C k ∣ x ) p(C_{k}|\mathbf{x}) p ( C k ∣ x ) ,可以使用贝叶斯公式进行如下表达:
p ( C k ∣ x ) = p ( x ∣ C k ) p ( C k ) p ( x ) p(C_{k}|\mathbf{x})=\frac{p(\mathbf{x}|C_{k})p(C_{k})}{p(\mathbf{x})} p ( C k ∣ x ) = p ( x ) p ( x ∣ C k ) p ( C k )
这里,p ( C k ) p(C_{k}) p ( C k ) 可以成为对类别C k C_{k} C k 的先验(即在不做X-ray之前,判断一个人是否患癌的概率);
p ( x ∣ C k ) p(\mathbf{x}|C_{k}) p ( x ∣ C k ) 成为相对应的后验
1.5.1 最小误差