指数分布族和广义线性回归

指数分布族

1. 定义

指数分布族不是专指一种分布，而是一系列符合特征的分布的统称。常用的诸如正态分布，伯努利分布，指数分布，泊松分布，gamma分布都属于指数分布族。 $p(y;\theta) = b(y)exp(\eta(\theta)T(y) - A(\theta))$ 其中：

b(y) - underlying measure
T(y) - sufficient statistic
A($\theta$) - log normalizer

通常情况下 $T(y) = y, A, b, T, \eta$ 给定的不同，就能得到不同的y的分布

其中的变量y和参数 $\theta$ 只在 $T(y)\eta(\theta)$ 中有联系，T(y)和 $\eta(\theta)$ 都是向量形式

2. 伯努利分布

伯努利分布的概率密度函数为： $p(y;\theta) = \theta^y(1 - \theta)^{1-y} = exp(ylog\theta + (1-y)log(1-\theta) = exp(log\frac{\theta}{1 - \theta}y + log(1-\theta))$ 对应指数分布族的概率密度函数可以发现：

$b(y) = 1$
$\eta(\theta) = log\frac{\theta}{1 - \theta}$
$T(y) = y$
$A(\theta) = -log(1 - \theta) = log(1 + e^{\eta(\theta)})$

3. 高斯分布

对于均值为 $\mu$ ，方差为 $\sigma$ 的高斯分布的概率密度函数为： $p(y;\mu, \sigma) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y-\mu)^2}{2\sigma^2}} = \frac{1}{\sqrt{2\pi}}e^{\eta(\mu, \sigma)T(y) - log\sigma - \frac{\mu^2}{2\sigma^2}}$ 对应指数分布族的概率密度函数可以发现:

$b(y) = \frac{1}{\sqrt{2\pi}}$
$\eta(\sigma) = [\frac{\mu}{\sigma^2}, -\frac{1}{2\sigma^2}]$
$T(y) = [y, y^2]$
$A(\sigma) = \frac{\mu^2}{2\sigma^2} + log\sigma$

4. 其他指数分布

还有许多其他分布属于指数分布族，如：

多项式分布（multinomial），用来对多元分类问题进行建模；
泊松分布（Poisson），用来对计数过程进行建模，如网站的访客数量、商店的顾客数量等；
伽马分布（gamma）和指数分布（exponential），用来对时间间隔进行建模，如等车时间等；
β分布（beta）和Dirichlet分布（Dirichlet），用于概率分布；
Wishart分布（Wishart），用于协方差矩阵分布。

广义线性模型(GLM)

之前一直知道线性回归，逻辑回归都属于glm，其中线性回归假设服从高斯分布，逻辑回归假设服从伯努利分布，但是为什么要这样并不是非常清楚。

1. 三个假设

在给定自变量x和参数 $\theta$ 的情况下，因变量y服从指数分布族
给定x，最终目的是求出T(y)的期望E[T(y)|x]
自然参数 $\eta$ 可以表示为自变量x的线性关系，即 $\eta = \theta^T x$

广义线性模型通过拟合y的条件均值/期望(在x和参数 $\theta$ 给定的情况下)，并假设y符合指数分布族中的某种分布，从而扩展了标准线性模型

2. 高斯分布

对于高斯分布，y的均值为参数 $\mu$

根据上面的推导， $y = \mu = \eta = \theta^T x$ (假设 $\sigma = 1$ )

这就和线性回归对于y作高斯分布的假设相呼应，这里的link function是y=x为identity function

3. 伯努利分布

对于伯努利分布，y的均值为 $\phi$ ，就是指数分布族下的唯一参数

根据上面的推导， $\eta = log\frac{\phi}{1 - \phi} = \theta^T x$ 推导出 $y = \phi = \frac{1}{1 + e^{-\eta}} = \frac{1}{1 + e^{-\theta^T x}}$

这也就是逻辑回归的表达式，对应与逻辑回归下y作伯努利分布的假设，此时的link function为 $y = log \frac{x}{1 - x}$ ，就是大名鼎鼎的logit函数了。

4. GLM建模过程

总结一下GLM的建模过程。

根据问题在指数分布族中选择一种分布作为对y的假设
计算该分布下的 $\eta$ ，实际上 $\eta = \eta(w^T)$ ，其中 $w^T$ 为该分布的真实参数，而 $\eta$ 只是以 $w^T$ 为参数的一个link function
计算该分布的期望，将其用 $\eta$ 表示，例如上面伯努利分布时的 $y=\phi = \frac{1}{1+e^{-\eta}}$
根据GLM的假设替换 $\eta = \theta^T x$ 即得到GLM模型

将这些知识都串联起来，就能更好的理解不同回归模型下的前提假设及其link function的选择了。

Previous机器学习 Next条件随机场CRF

Last updated 5 years ago

Was this helpful?