指数分布族和广义线性回归

指数分布族

1. 定义

指数分布族不是专指一种分布,而是一系列符合特征的分布的统称。常用的诸如正态分布,伯努利分布,指数分布,泊松分布,gamma分布都属于指数分布族。 p(y;θ)=b(y)exp(η(θ)T(y)A(θ))p(y;\theta) = b(y)exp(\eta(\theta)T(y) - A(\theta)) 其中:

  • b(y) - underlying measure

  • T(y) - sufficient statistic

  • A($\theta$) - log normalizer

通常情况下 T(y)=y,A,b,T,ηT(y) = y, A, b, T, \eta 给定的不同,就能得到不同的y的分布

其中的变量y和参数 θ\theta 只在 T(y)η(θ)T(y)\eta(\theta) 中有联系,T(y)和 η(θ)\eta(\theta) 都是向量形式

2. 伯努利分布

伯努利分布的概率密度函数为: p(y;θ)=θy(1θ)1y=exp(ylogθ+(1y)log(1θ)=exp(logθ1θy+log(1θ))p(y;\theta) = \theta^y(1 - \theta)^{1-y} = exp(ylog\theta + (1-y)log(1-\theta) = exp(log\frac{\theta}{1 - \theta}y + log(1-\theta)) 对应指数分布族的概率密度函数可以发现:

  • b(y)=1b(y) = 1

  • η(θ)=logθ1θ\eta(\theta) = log\frac{\theta}{1 - \theta}

  • T(y)=yT(y) = y

  • A(θ)=log(1θ)=log(1+eη(θ))A(\theta) = -log(1 - \theta) = log(1 + e^{\eta(\theta)})

3. 高斯分布

对于均值为 μ\mu ,方差为 σ\sigma 的高斯分布的概率密度函数为: p(y;μ,σ)=12πσe(yμ)22σ2=12πeη(μ,σ)T(y)logσμ22σ2p(y;\mu, \sigma) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y-\mu)^2}{2\sigma^2}} = \frac{1}{\sqrt{2\pi}}e^{\eta(\mu, \sigma)T(y) - log\sigma - \frac{\mu^2}{2\sigma^2}} 对应指数分布族的概率密度函数可以发现:

  • b(y)=12πb(y) = \frac{1}{\sqrt{2\pi}}

  • η(σ)=[μσ2,12σ2]\eta(\sigma) = [\frac{\mu}{\sigma^2}, -\frac{1}{2\sigma^2}]

  • T(y)=[y,y2]T(y) = [y, y^2]

  • A(σ)=μ22σ2+logσA(\sigma) = \frac{\mu^2}{2\sigma^2} + log\sigma

4. 其他指数分布

还有许多其他分布属于指数分布族,如:

  • 多项式分布(multinomial),用来对多元分类问题进行建模;

  • 泊松分布(Poisson),用来对计数过程进行建模,如网站的访客数量、商店的顾客数量等;

  • 伽马分布(gamma)和指数分布(exponential),用来对时间间隔进行建模,如等车时间等;

  • β分布(beta)和Dirichlet分布(Dirichlet),用于概率分布;

  • Wishart分布(Wishart),用于协方差矩阵分布。

广义线性模型(GLM)

之前一直知道线性回归,逻辑回归都属于glm,其中线性回归假设服从高斯分布,逻辑回归假设服从伯努利分布,但是为什么要这样并不是非常清楚。

1. 三个假设

  • 在给定自变量x和参数 θ\theta 的情况下,因变量y服从指数分布族

  • 给定x,最终目的是求出T(y)的期望E[T(y)|x]

  • 自然参数 η\eta 可以表示为自变量x的线性关系,即 η=θTx\eta = \theta^T x

广义线性模型通过拟合y的条件均值/期望(在x和参数 θ\theta 给定的情况下),并假设y符合指数分布族中的某种分布,从而扩展了标准线性模型

2. 高斯分布

对于高斯分布,y的均值为参数 μ\mu

根据上面的推导, y=μ=η=θTxy = \mu = \eta = \theta^T x (假设 σ=1\sigma = 1 )

这就和线性回归对于y作高斯分布的假设相呼应,这里的link function是y=x为identity function

3. 伯努利分布

对于伯努利分布,y的均值为 ϕ\phi ,就是指数分布族下的唯一参数

根据上面的推导, η=logϕ1ϕ=θTx\eta = log\frac{\phi}{1 - \phi} = \theta^T x 推导出 y=ϕ=11+eη=11+eθTxy = \phi = \frac{1}{1 + e^{-\eta}} = \frac{1}{1 + e^{-\theta^T x}}

这也就是逻辑回归的表达式,对应与逻辑回归下y作伯努利分布的假设,此时的link function为 y=logx1xy = log \frac{x}{1 - x} ,就是大名鼎鼎的logit函数了。

4. GLM建模过程

总结一下GLM的建模过程。

  • 根据问题在指数分布族中选择一种分布作为对y的假设

  • 计算该分布下的 η\eta ,实际上 η=η(wT)\eta = \eta(w^T) ,其中 wTw^T 为该分布的真实参数,而 η\eta 只是以 wTw^T 为参数的一个link function

  • 计算该分布的期望,将其用 η\eta 表示,例如上面伯努利分布时的 y=ϕ=11+eηy=\phi = \frac{1}{1+e^{-\eta}}

  • 根据GLM的假设替换 η=θTx\eta = \theta^T x 即得到GLM模型

将这些知识都串联起来,就能更好的理解不同回归模型下的前提假设及其link function的选择了。

Last updated