NLP之TextRank

关键词提取

NLP

发布日期: 2021-03-10

文章字数: 284

阅读时长: 1 分

阅读次数:

基础

问题

如何对一篇文章的关键词进行提取

解决

使用类似网页排名算法PageRank的思路
构建词与词之间的图，然后迭代计算词的排名

`TextRank`

回顾PageRank的计算公式：$P=(1-d)\frac{I}{n}+dA^TP$
直接说TextRank的计算公式：$P=(1-d)\frac{I}{n}+dW^TP$
- 其中$W=(w_{ij})_{m\times n}$为词与词之间的权重，一般为词$i$与词$j$在滑动窗口$k$内的共现次数

如何根据词构建图

对文章$S$进行分词，得到词列表
设定滑动窗口$k$的大小，统计滑动窗口内各词对的贡献次数
1. 例如：淡黄的长裙，蓬松的头发，分词后为[淡黄, 长裙, 蓬松, 头发]
2. 设定滑动窗口$k=2$，则得到词对：
  1. 淡黄,长裙
  2. 长裙,蓬松
  3. 蓬松,头发
3. 根据这些词对构建无向图，注意PageRank是有向图
4. 然后使用公式计算

进阶

疑难

实现

jieba.analyse.textrank(sentence, topK=20, withWeight=False, allowPOS=('ns', 'n', 'vn', 'v'))

参考

Myhaa

https://myhaa.github.io/2021/03/10/nlp-zhi-textrank/

本博客所有文章除特別声明外，均采用 CC BY 4.0 许可协议。转载请注明来源 Myhaa !

关键词提取

评论

上一篇

深度学习之图像识别

深度学习之图像识别

图片相关处理技术

2021-03-11 深度学习

图像识别

下一篇

机器学习之PageRank

机器学习之PageRank

数据挖掘十大算法之PageRank

2021-03-10 机器学习

数据挖掘十大算法