论文: 基于文档主题结构的关键词抽取方法研究

本文是刘知远老师的博士论文,详细的介绍了关键词抽取相关的相关方法

虽然现在的人一言不合就是深度学习,但是平时工作上由于缺乏标注数据,在关键词抽取这块基本还是一些tfidf的方法为主。这种基于统计的无监督方法经常会提取出一些非主体关键词的case,因此想学习一下这篇通过文档主题结构抽取关键词的论文,希望对自己平时关键词抽取这块的工作有所启发。

文章的主要思想在于通过对文档主题结构来实现对关键词的抽取,主要讨论了四个方面:

  • 基于文档内部信息,利用文档的词聚类算法构建文档主题,进行关键词抽取。

  • 基于文档外部信息,利用隐含主题模型构建文档主题,进行关键词抽取取。

  • 综合利用隐含主题模型和文档结构信息,进行关键词抽取取。

  • 基于文档与关键词主题一致性的前提,提出基于机器翻译模型的关键词抽取方法。

Last updated