4. 利用隐含主题模型和文档结构的关键词抽取方法

LDA和之前的聚类方法一个缺点在于没有考虑文档主题的结构信息,它对于文档中的词是整体进行考虑的,也就是没有考虑词出现的位置结构和内容的结构。

TextRank方法相对TFIDF来说利用图来表示文档的结构并进行关键词提取,但是它没有考虑文档的主题信息。因此作者提出了结合LDA和文档结构的关键词抽取方法。

  • 利用外部文档训练LDA模型

  • 计算文档和文档单词的主题分布

  • 在文档d上,根据单词的共现关系,构建文档的单词图

  • 在图上根据每个主题运算随机游走,计算不同主题上的PageRank值

  • 根据文档d的主题分布,对各主题上各单词的PageRank值进行加权,得到不同词的重要性作为文档关键词重要性的表示

该方法,一方面利用LDA构建文档主题,另一方面利用TextRank考虑文档结构为关键词抽取提供信息。

Last updated

Was this helpful?