指数分布族
1. 定义
指数分布族不是专指一种分布,而是一系列符合特征的分布的统称。常用的诸如正态分布,伯努利分布,指数分布,泊松分布,gamma分布都属于指数分布族。 p(y;θ)=b(y)exp(η(θ)T(y)−A(θ)) 其中:
b(y) - underlying measure
T(y) - sufficient statistic
A($\theta$) - log normalizer
通常情况下 T(y)=y,A,b,T,η 给定的不同,就能得到不同的y的分布
其中的变量y和参数 θ 只在 T(y)η(θ) 中有联系,T(y)和 η(θ) 都是向量形式
2. 伯努利分布
伯努利分布的概率密度函数为: p(y;θ)=θy(1−θ)1−y=exp(ylogθ+(1−y)log(1−θ)=exp(log1−θθy+log(1−θ)) 对应指数分布族的概率密度函数可以发现:
η(θ)=log1−θθ
A(θ)=−log(1−θ)=log(1+eη(θ))
3. 高斯分布
对于均值为 μ ,方差为 σ 的高斯分布的概率密度函数为: p(y;μ,σ)=2πσ1e−2σ2(y−μ)2=2π1eη(μ,σ)T(y)−logσ−2σ2μ2 对应指数分布族的概率密度函数可以发现:
b(y)=2π1
η(σ)=[σ2μ,−2σ21]
T(y)=[y,y2]
A(σ)=2σ2μ2+logσ
4. 其他指数分布
还有许多其他分布属于指数分布族,如:
多项式分布(multinomial),用来对多元分类问题进行建模;
泊松分布(Poisson),用来对计数过程进行建模,如网站的访客数量、商店的顾客数量等;
伽马分布(gamma)和指数分布(exponential),用来对时间间隔进行建模,如等车时间等;
β分布(beta)和Dirichlet分布(Dirichlet),用于概率分布;
Wishart分布(Wishart),用于协方差矩阵分布。
广义线性模型(GLM)
之前一直知道线性回归,逻辑回归都属于glm,其中线性回归假设服从高斯分布,逻辑回归假设服从伯努利分布,但是为什么要这样并不是非常清楚。
1. 三个假设
在给定自变量x和参数 θ 的情况下,因变量y服从指数分布族
给定x,最终目的是求出T(y)的期望E[T(y)|x]
自然参数 η 可以表示为自变量x的线性关系,即 η=θTx
广义线性模型通过拟合y的条件均值/期望(在x和参数 θ 给定的情况下),并假设y符合指数分布族中的某种分布,从而扩展了标准线性模型
2. 高斯分布
对于高斯分布,y的均值为参数 μ
根据上面的推导, y=μ=η=θTx (假设 σ=1 )
这就和线性回归对于y作高斯分布的假设相呼应,这里的link function是y=x为identity function
3. 伯努利分布
对于伯努利分布,y的均值为 ϕ ,就是指数分布族下的唯一参数
根据上面的推导, η=log1−ϕϕ=θTx 推导出 y=ϕ=1+e−η1=1+e−θTx1
这也就是逻辑回归的表达式,对应与逻辑回归下y作伯努利分布的假设,此时的link function为 y=log1−xx ,就是大名鼎鼎的logit函数了。
4. GLM建模过程
总结一下GLM的建模过程。
计算该分布下的 η ,实际上 η=η(wT) ,其中 wT 为该分布的真实参数,而 η 只是以 wT 为参数的一个link function
计算该分布的期望,将其用 η 表示,例如上面伯努利分布时的 y=ϕ=1+e−η1
根据GLM的假设替换 η=θTx 即得到GLM模型
将这些知识都串联起来,就能更好的理解不同回归模型下的前提假设及其link function的选择了。