野路子程序猿
  • 博客介绍
  • TensorFlow
    • TensorFlow数据读取
    • TensorBoard的使用
  • 弱监督学习
    • 论文: Snorkel DryBell: A Case Study in Deploying Weak Supervision at Industrial Scale
  • NLP之语言模型
    • 统计语言模型
    • 论文: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
  • NLP之关键词提取
    • 改进TF-IDF算法
    • 论文: 基于文档主题结构的关键词抽取方法研究
      • 1. 引言
      • 2. 基于文档内部信息构建主题的关键词抽取方法
      • 3. 基于隐含主题模型构建主题的关键词抽取方法
      • 4. 利用隐含主题模型和文档结构的关键词抽取方法
      • 5. 基于文档与关键词主题一致性的关键词抽取方法
  • 深度学习
    • 《深度学习与神经网络》笔记
      • 1. 使用神经网络识别手写数字
      • 2. 反向传播算法
      • 3. 如何提高神经网络学习算法的效果
      • 4. 神经网络可以实现任意函数的直观解释
      • 5. 深度神经网络学习过程中的梯度消失问题
      • 6. 深度学习
  • RNN
    • RNN常见结构
  • attention机制
    • 简述Attention机制及其在深度学习中的应用
    • 论文: Attention Is All You Need
  • Spark
    • Spark ML下实现的多分类AdaBoost + NaiveBayes算法
  • Python
    • Python函数式编程
  • 线性代数
    • 《Immersive Linear Algebra》笔记
      • 4. 向量叉乘(外积)
  • 机器学习
    • 指数分布族和广义线性回归
    • 条件随机场CRF
    • 信息论基本概念
  • 过拟合
    • Early Stopping
Powered by GitBook
On this page
  • 指数分布族
  • 广义线性模型(GLM)

Was this helpful?

  1. 机器学习

指数分布族和广义线性回归

Previous机器学习Next条件随机场CRF

Last updated 5 years ago

Was this helpful?

指数分布族

1. 定义

指数分布族不是专指一种分布,而是一系列符合特征的分布的统称。常用的诸如正态分布,伯努利分布,指数分布,泊松分布,gamma分布都属于指数分布族。 p(y;θ)=b(y)exp(η(θ)T(y)−A(θ))p(y;\theta) = b(y)exp(\eta(\theta)T(y) - A(\theta))p(y;θ)=b(y)exp(η(θ)T(y)−A(θ)) 其中:

  • b(y) - underlying measure

  • T(y) - sufficient statistic

  • A($\theta$) - log normalizer

通常情况下 T(y)=y,A,b,T,ηT(y) = y, A, b, T, \etaT(y)=y,A,b,T,η 给定的不同,就能得到不同的y的分布

其中的变量y和参数 θ\thetaθ 只在 T(y)η(θ)T(y)\eta(\theta)T(y)η(θ) 中有联系,T(y)和 η(θ)\eta(\theta)η(θ) 都是向量形式

2. 伯努利分布

伯努利分布的概率密度函数为: p(y;θ)=θy(1−θ)1−y=exp(ylogθ+(1−y)log(1−θ)=exp(logθ1−θy+log(1−θ))p(y;\theta) = \theta^y(1 - \theta)^{1-y} = exp(ylog\theta + (1-y)log(1-\theta) = exp(log\frac{\theta}{1 - \theta}y + log(1-\theta))p(y;θ)=θy(1−θ)1−y=exp(ylogθ+(1−y)log(1−θ)=exp(log1−θθ​y+log(1−θ)) 对应指数分布族的概率密度函数可以发现:

  • b(y)=1b(y) = 1b(y)=1

  • η(θ)=logθ1−θ\eta(\theta) = log\frac{\theta}{1 - \theta}η(θ)=log1−θθ​

  • T(y)=yT(y) = yT(y)=y

  • A(θ)=−log(1−θ)=log(1+eη(θ))A(\theta) = -log(1 - \theta) = log(1 + e^{\eta(\theta)})A(θ)=−log(1−θ)=log(1+eη(θ))

3. 高斯分布

对于均值为 μ\muμ ,方差为 σ\sigmaσ 的高斯分布的概率密度函数为: p(y;μ,σ)=12πσe−(y−μ)22σ2=12πeη(μ,σ)T(y)−logσ−μ22σ2p(y;\mu, \sigma) = \frac{1}{\sqrt{2\pi}\sigma} e^{-\frac{(y-\mu)^2}{2\sigma^2}} = \frac{1}{\sqrt{2\pi}}e^{\eta(\mu, \sigma)T(y) - log\sigma - \frac{\mu^2}{2\sigma^2}}p(y;μ,σ)=2π​σ1​e−2σ2(y−μ)2​=2π​1​eη(μ,σ)T(y)−logσ−2σ2μ2​ 对应指数分布族的概率密度函数可以发现:

4. 其他指数分布

还有许多其他分布属于指数分布族,如:

  • 多项式分布(multinomial),用来对多元分类问题进行建模;

  • 泊松分布(Poisson),用来对计数过程进行建模,如网站的访客数量、商店的顾客数量等;

  • 伽马分布(gamma)和指数分布(exponential),用来对时间间隔进行建模,如等车时间等;

  • β分布(beta)和Dirichlet分布(Dirichlet),用于概率分布;

  • Wishart分布(Wishart),用于协方差矩阵分布。

广义线性模型(GLM)

之前一直知道线性回归,逻辑回归都属于glm,其中线性回归假设服从高斯分布,逻辑回归假设服从伯努利分布,但是为什么要这样并不是非常清楚。

1. 三个假设

  • 给定x,最终目的是求出T(y)的期望E[T(y)|x]

2. 高斯分布

这就和线性回归对于y作高斯分布的假设相呼应,这里的link function是y=x为identity function

3. 伯努利分布

4. GLM建模过程

总结一下GLM的建模过程。

  • 根据问题在指数分布族中选择一种分布作为对y的假设

将这些知识都串联起来,就能更好的理解不同回归模型下的前提假设及其link function的选择了。

b(y)=12πb(y) = \frac{1}{\sqrt{2\pi}}b(y)=2π​1​

η(σ)=[μσ2,−12σ2]\eta(\sigma) = [\frac{\mu}{\sigma^2}, -\frac{1}{2\sigma^2}]η(σ)=[σ2μ​,−2σ21​]

T(y)=[y,y2]T(y) = [y, y^2]T(y)=[y,y2]

A(σ)=μ22σ2+logσA(\sigma) = \frac{\mu^2}{2\sigma^2} + log\sigmaA(σ)=2σ2μ2​+logσ

在给定自变量x和参数 θ\thetaθ 的情况下,因变量y服从指数分布族

自然参数 η\etaη 可以表示为自变量x的线性关系,即 η=θTx\eta = \theta^T xη=θTx

广义线性模型通过拟合y的条件均值/期望(在x和参数 θ\thetaθ 给定的情况下),并假设y符合指数分布族中的某种分布,从而扩展了标准线性模型

对于高斯分布,y的均值为参数 μ\muμ

根据上面的推导, y=μ=η=θTxy = \mu = \eta = \theta^T xy=μ=η=θTx (假设 σ=1\sigma = 1σ=1 )

对于伯努利分布,y的均值为 ϕ\phiϕ ,就是指数分布族下的唯一参数

根据上面的推导, η=logϕ1−ϕ=θTx\eta = log\frac{\phi}{1 - \phi} = \theta^T xη=log1−ϕϕ​=θTx 推导出 y=ϕ=11+e−η=11+e−θTxy = \phi = \frac{1}{1 + e^{-\eta}} = \frac{1}{1 + e^{-\theta^T x}}y=ϕ=1+e−η1​=1+e−θTx1​

这也就是逻辑回归的表达式,对应与逻辑回归下y作伯努利分布的假设,此时的link function为 y=logx1−xy = log \frac{x}{1 - x}y=log1−xx​ ,就是大名鼎鼎的logit函数了。

计算该分布下的 η\etaη ,实际上 η=η(wT)\eta = \eta(w^T)η=η(wT) ,其中 wTw^TwT 为该分布的真实参数,而 η\etaη 只是以 wTw^TwT 为参数的一个link function

计算该分布的期望,将其用 η\etaη 表示,例如上面伯努利分布时的 y=ϕ=11+e−ηy=\phi = \frac{1}{1+e^{-\eta}}y=ϕ=1+e−η1​

根据GLM的假设替换 η=θTx\eta = \theta^T xη=θTx 即得到GLM模型