# 4. 利用隐含主题模型和文档结构的关键词抽取方法

LDA和之前的聚类方法一个缺点在于没有考虑文档主题的结构信息，它对于文档中的词是整体进行考虑的，也就是没有考虑词出现的位置结构和内容的结构。

TextRank方法相对TFIDF来说利用图来表示文档的结构并进行关键词提取，但是它没有考虑文档的主题信息。因此作者提出了结合LDA和文档结构的关键词抽取方法。

![](https://3676603176-files.gitbook.io/~/files/v0/b/gitbook-legacy-files/o/assets%2F-Ln2Cwa30IhAwp_pKAP9%2F-LoQ45bd5ZLjP7zn7Y8b%2F-LoQ55mzgzU5Og9JQ9J3%2Fimage.png?alt=media\&token=b5a9bff5-1991-4e70-ba9f-3ef5e5978bf8)

* 利用外部文档训练LDA模型
* 计算文档和文档单词的主题分布
* 在文档d上，根据单词的共现关系，构建文档的单词图
* 在图上根据每个主题运算随机游走，计算不同主题上的PageRank值
* 根据文档d的主题分布，对各主题上各单词的PageRank值进行加权，得到不同词的重要性作为文档关键词重要性的表示

该方法，一方面利用LDA构建文档主题，另一方面利用TextRank考虑文档结构为关键词抽取提供信息。
