# 指数分布族和广义线性回归

### 指数分布族

#### 1. 定义

指数分布族不是专指一种分布，而是一系列符合特征的分布的统称。常用的诸如正态分布，伯努利分布，指数分布，泊松分布，gamma分布都属于指数分布族。 $$p(y;\theta) = b(y)exp(\eta(\theta)T(y) - A(\theta))$$ 其中：

* b(y) - underlying measure
* T(y) - sufficient statistic
* A($\theta$) - log normalizer

通常情况下 $$T(y) = y, A, b, T, \eta$$ 给定的不同，就能得到不同的y的分布

其中的变量y和参数 $$\theta$$ 只在 $$T(y)\eta(\theta)$$ 中有联系，T(y)和 $$\eta(\theta)$$ 都是向量形式

#### 2. 伯努利分布

伯努利分布的概率密度函数为： $$p(y;\theta) = \theta^y(1 - \theta)^{1-y} = exp(ylog\theta + (1-y)log(1-\theta) = exp(log\frac{\theta}{1 - \theta}y + log(1-\theta))$$ 对应指数分布族的概率密度函数可以发现：

* $$b(y) = 1$$&#x20;
* $$\eta(\theta) = log\frac{\theta}{1 - \theta}$$&#x20;
* $$T(y) = y$$&#x20;
* $$A(\theta) = -log(1 - \theta) = log(1 + e^{\eta(\theta)})$$&#x20;

#### 3. 高斯分布

对于均值为 $$\mu$$ ，方差为 $$\sigma$$ 的高斯分布的概率密度函数为： $$p(y;\mu, \sigma) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y-\mu)^2}{2\sigma^2}} = \frac{1}{\sqrt{2\pi}}e^{\eta(\mu, \sigma)T(y) - log\sigma - \frac{\mu^2}{2\sigma^2}}$$ 对应指数分布族的概率密度函数可以发现:

* $$b(y) = \frac{1}{\sqrt{2\pi}}$$&#x20;
* $$\eta(\sigma) = \[\frac{\mu}{\sigma^2}, -\frac{1}{2\sigma^2}]$$&#x20;
* $$T(y) = \[y, y^2]$$&#x20;
* $$A(\sigma) = \frac{\mu^2}{2\sigma^2} + log\sigma$$&#x20;

#### 4. 其他指数分布

还有许多其他分布属于指数分布族，如：

* 多项式分布（multinomial），用来对多元分类问题进行建模；
* 泊松分布（Poisson），用来对计数过程进行建模，如网站的访客数量、商店的顾客数量等；
* 伽马分布（gamma）和指数分布（exponential），用来对时间间隔进行建模，如等车时间等；
* β分布（beta）和Dirichlet分布（Dirichlet），用于概率分布；
* Wishart分布（Wishart），用于协方差矩阵分布。

### 广义线性模型(GLM)

之前一直知道线性回归，逻辑回归都属于glm，其中线性回归假设服从高斯分布，逻辑回归假设服从伯努利分布，但是为什么要这样并不是非常清楚。

#### 1. 三个假设

* 在给定自变量x和参数 $$\theta$$ 的情况下，因变量y服从指数分布族
* 给定x，最终目的是求出T(y)的期望E\[T(y)|x]
* 自然参数 $$\eta$$ 可以表示为自变量x的线性关系，即 $$\eta = \theta^T x$$&#x20;

**广义线性模型通过拟合y的条件均值/期望(在x和参数** $$\theta$$ **给定的情况下)，并假设y符合指数分布族中的某种分布，从而扩展了标准线性模型**

#### 2. 高斯分布

对于高斯分布，y的均值为参数 $$\mu$$&#x20;

根据上面的推导， $$y = \mu = \eta = \theta^T x$$ (假设 $$\sigma = 1$$ )

这就和线性回归对于y作高斯分布的假设相呼应，这里的link function是y=x为identity function

#### 3. 伯努利分布

对于伯努利分布，y的均值为 $$\phi$$ ，就是指数分布族下的唯一参数

根据上面的推导， $$\eta = log\frac{\phi}{1 - \phi} = \theta^T x$$ 推导出 $$y = \phi = \frac{1}{1 + e^{-\eta}} = \frac{1}{1 + e^{-\theta^T x}}$$&#x20;

这也就是逻辑回归的表达式，对应与逻辑回归下y作伯努利分布的假设，此时的link function为 $$y = log \frac{x}{1 - x}$$ ，就是大名鼎鼎的logit函数了。

#### 4. GLM建模过程

总结一下GLM的建模过程。

* 根据问题在指数分布族中选择一种分布作为对y的假设
* 计算该分布下的 $$\eta$$ ，实际上 $$\eta = \eta(w^T)$$ ，其中 $$w^T$$ 为该分布的真实参数，而 $$\eta$$ 只是以 $$w^T$$ 为参数的一个link function
* 计算该分布的期望，将其用 $$\eta$$ 表示，例如上面伯努利分布时的 $$y=\phi = \frac{1}{1+e^{-\eta}}$$&#x20;
* 根据GLM的假设替换 $$\eta = \theta^T x$$ 即得到GLM模型

将这些知识都串联起来，就能更好的理解不同回归模型下的前提假设及其link function的选择了。
