野路子程序猿
  • 博客介绍
  • TensorFlow
    • TensorFlow数据读取
    • TensorBoard的使用
  • 弱监督学习
    • 论文: Snorkel DryBell: A Case Study in Deploying Weak Supervision at Industrial Scale
  • NLP之语言模型
    • 统计语言模型
    • 论文: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
  • NLP之关键词提取
    • 改进TF-IDF算法
    • 论文: 基于文档主题结构的关键词抽取方法研究
      • 1. 引言
      • 2. 基于文档内部信息构建主题的关键词抽取方法
      • 3. 基于隐含主题模型构建主题的关键词抽取方法
      • 4. 利用隐含主题模型和文档结构的关键词抽取方法
      • 5. 基于文档与关键词主题一致性的关键词抽取方法
  • 深度学习
    • 《深度学习与神经网络》笔记
      • 1. 使用神经网络识别手写数字
      • 2. 反向传播算法
      • 3. 如何提高神经网络学习算法的效果
      • 4. 神经网络可以实现任意函数的直观解释
      • 5. 深度神经网络学习过程中的梯度消失问题
      • 6. 深度学习
  • RNN
    • RNN常见结构
  • attention机制
    • 简述Attention机制及其在深度学习中的应用
    • 论文: Attention Is All You Need
  • Spark
    • Spark ML下实现的多分类AdaBoost + NaiveBayes算法
  • Python
    • Python函数式编程
  • 线性代数
    • 《Immersive Linear Algebra》笔记
      • 4. 向量叉乘(外积)
  • 机器学习
    • 指数分布族和广义线性回归
    • 条件随机场CRF
    • 信息论基本概念
  • 过拟合
    • Early Stopping
Powered by GitBook
On this page
  • 3.1 LDA主题模型
  • 3.2 基于LDA的关键词抽取
  • 3.2.1 计算文档和关键词的主题分布
  • 3.2.2 计算文档和候选关键词相似度
  • 3.3 小结

Was this helpful?

  1. NLP之关键词提取
  2. 论文: 基于文档主题结构的关键词抽取方法研究

3. 基于隐含主题模型构建主题的关键词抽取方法

Previous2. 基于文档内部信息构建主题的关键词抽取方法Next4. 利用隐含主题模型和文档结构的关键词抽取方法

Last updated 5 years ago

Was this helpful?

气死了,之前写的网速太差保存失败,全没了。再写一遍我就懒得敲公式了!

之前用了聚类的方法来描述文档的主题,然而这样有很多缺点:

  • 一篇文档的词是有限的,不一定能聚类出有意义的主题词

  • 聚类方法很不可控,受类别大小,聚类算法,距离选择影响很大

既然是获取主题表示,这里就思考使用LDA模型利用外部信息来进行主题建模。

3.1 LDA主题模型

LDA模型不是本文重点,作为一个无监督算法,可以得到最终的两个参数矩阵:

前者表示文档j中主题k的概率,后者表示词w上主题k的概率

3.2 基于LDA的关键词抽取

在利用大量数据得到LDA模型后,也是先选取候选关键词,然后再进行关键词分配:

  • 通过词性标注选取名词短语作为候选关键词

  • 计算文档的主题分布和候选关键词的主题分布

  • 计算文档和关键词主题分布的相似度,选取相似度最高的一些词

3.2.1 计算文档和关键词的主题分布

LDA模型建模得到的词w在主题k上的概率是:

同时可以得到主题k上的词w的概率:

对于一个候选关键词p,由多个词w组成,得到关键词p对应的主题分布:

3.2.2 计算文档和候选关键词相似度

得到两个主题分布,直接按照常用的方法计算相似度即可,KL散度,余弦距离,欧氏距离都行。

3.3 小结

LDA在这里的作用其实有点像现在的知识表征学习,都是得到文本的一个低维向量表示。不同的是LDA的得到的向量相对深度学习的embedding更具有解释性一点。然后得到了主题分布这样的向量再进行向量的相似度比较就可以得到和文档主题最相似的词作为文档的关键词。