3. 基于隐含主题模型构建主题的关键词抽取方法

气死了，之前写的网速太差保存失败，全没了。再写一遍我就懒得敲公式了！

之前用了聚类的方法来描述文档的主题，然而这样有很多缺点：

既然是获取主题表示，这里就思考使用LDA模型利用外部信息来进行主题建模。

3.1 LDA主题模型

LDA模型不是本文重点，作为一个无监督算法，可以得到最终的两个参数矩阵：

前者表示文档j中主题k的概率，后者表示词w上主题k的概率

在利用大量数据得到LDA模型后，也是先选取候选关键词，然后再进行关键词分配：

LDA模型建模得到的词w在主题k上的概率是：

同时可以得到主题k上的词w的概率：

对于一个候选关键词p，由多个词w组成，得到关键词p对应的主题分布：

得到两个主题分布，直接按照常用的方法计算相似度即可，KL散度，余弦距离，欧氏距离都行。

LDA在这里的作用其实有点像现在的知识表征学习，都是得到文本的一个低维向量表示。不同的是LDA的得到的向量相对深度学习的embedding更具有解释性一点。然后得到了主题分布这样的向量再进行向量的相似度比较就可以得到和文档主题最相似的词作为文档的关键词。

Last updated 5 years ago

Was this helpful?