野路子程序猿
  • 博客介绍
  • TensorFlow
    • TensorFlow数据读取
    • TensorBoard的使用
  • 弱监督学习
    • 论文: Snorkel DryBell: A Case Study in Deploying Weak Supervision at Industrial Scale
  • NLP之语言模型
    • 统计语言模型
    • 论文: BERT: Pre-training of Deep Bidirectional Transformers for Language Understanding
  • NLP之关键词提取
    • 改进TF-IDF算法
    • 论文: 基于文档主题结构的关键词抽取方法研究
      • 1. 引言
      • 2. 基于文档内部信息构建主题的关键词抽取方法
      • 3. 基于隐含主题模型构建主题的关键词抽取方法
      • 4. 利用隐含主题模型和文档结构的关键词抽取方法
      • 5. 基于文档与关键词主题一致性的关键词抽取方法
  • 深度学习
    • 《深度学习与神经网络》笔记
      • 1. 使用神经网络识别手写数字
      • 2. 反向传播算法
      • 3. 如何提高神经网络学习算法的效果
      • 4. 神经网络可以实现任意函数的直观解释
      • 5. 深度神经网络学习过程中的梯度消失问题
      • 6. 深度学习
  • RNN
    • RNN常见结构
  • attention机制
    • 简述Attention机制及其在深度学习中的应用
    • 论文: Attention Is All You Need
  • Spark
    • Spark ML下实现的多分类AdaBoost + NaiveBayes算法
  • Python
    • Python函数式编程
  • 线性代数
    • 《Immersive Linear Algebra》笔记
      • 4. 向量叉乘(外积)
  • 机器学习
    • 指数分布族和广义线性回归
    • 条件随机场CRF
    • 信息论基本概念
  • 过拟合
    • Early Stopping
Powered by GitBook
On this page

Was this helpful?

  1. NLP之关键词提取
  2. 论文: 基于文档主题结构的关键词抽取方法研究

4. 利用隐含主题模型和文档结构的关键词抽取方法

Previous3. 基于隐含主题模型构建主题的关键词抽取方法Next5. 基于文档与关键词主题一致性的关键词抽取方法

Last updated 5 years ago

Was this helpful?

LDA和之前的聚类方法一个缺点在于没有考虑文档主题的结构信息,它对于文档中的词是整体进行考虑的,也就是没有考虑词出现的位置结构和内容的结构。

TextRank方法相对TFIDF来说利用图来表示文档的结构并进行关键词提取,但是它没有考虑文档的主题信息。因此作者提出了结合LDA和文档结构的关键词抽取方法。

  • 利用外部文档训练LDA模型

  • 计算文档和文档单词的主题分布

  • 在文档d上,根据单词的共现关系,构建文档的单词图

  • 在图上根据每个主题运算随机游走,计算不同主题上的PageRank值

  • 根据文档d的主题分布,对各主题上各单词的PageRank值进行加权,得到不同词的重要性作为文档关键词重要性的表示

该方法,一方面利用LDA构建文档主题,另一方面利用TextRank考虑文档结构为关键词抽取提供信息。