盘点一个英文文本中统计关键词的方法

IT共享之家

共 3534字,需浏览 8分钟

 ·

2022-11-29 14:13

点击上方“Python共享之家”,进行关注

回复“资源”即可获赠Python学习资料

冉冉几盈虚,澄澄变今古。

大家好,我是皮皮。

一、前言

前几天在Python最强王者交流群【Wendy  Zheng】问了一个英文文本中统计关键词的问题,这里拿出来给大家分享下。

二、实现过程

针对这个问题,本文给出一个思路方法,也许有帮助,首先我们需要将Excel中的文本进行导入到一个文本文件中去,代码如下:

# coding: utf-8
import pandas as pd
df = pd.read_excel('./文本.xlsx')
# print(df.head())
# df['专业关键词']
for text in df['工作要求']:
    # print(text)
    if text is not None:
        with open('工作要求.txt', mode='a', encoding='utf-8') as file:
            file.write(str(text))

print('写入完成')

接下来就可以针对这个文本文件进行相关的词频统计了,如果你有自己自定义的关键词,也可以就着关键词去统计,没有的话,就自己在关键词范围内,任意取多少个关键词都可以,相关的代码如下所示:

from collections import Counter
import pandas as pd
df = pd.read_excel('./文本.xlsx')
# print(df.head())

words = []

with open('工作要求.txt''r', encoding='utf-8') as f:
    line = f.readlines()
    for word in line[0].split(' '):
        words.append(word)

print(len(words))

counter = Counter(words)
# print(counter)

# df['专业关键词']
for text in df['专业关键词']:
    for k, v in counter.items():
        if k == text:
            print(k, v)

这个代码对于英文文本还是适用的,不过有个小问题,如下。

最后这里也给出中文分词的代码和可视化代码,两者结合在一起的,感兴趣的小伙伴们可以试试看。

from collections import Counter # 统计词频
from pyecharts.charts import Bar
from pyecharts import options as opts
from snownlp import SnowNLP
import jieba   # 分词
with open('text_分词后_outputs.txt''r',encoding='utf-8') as f:
    read = f.read()
with open('stop_word.txt''r', encoding='utf-8') as f:
    stop_word = f.read()
word = jieba.cut(read)
words = []
for i in list(word):
    if i not in stop_word:
        words.append(i)

columns = []
data = []
for k, v in dict(Counter(words).most_common(10)).items():

    columns.append(k)
    data.append(v)
bar = (
        Bar()
        .add_xaxis(columns)
        .add_yaxis("词频", data)
        .set_global_opts(title_opts=opts.TitleOpts(title="词频top10"))
    )
bar.render("词频.html")

三、总结

大家好,我是皮皮。这篇文章主要盘点了一个英文文本中统计关键词方法处理的问题,文中针对该问题,给出了具体的解析和代码实现,帮助粉丝顺利解决了问题。

最后感谢粉丝【Wendy  Zheng】提问,感谢【Python进阶者】给出的思路和代码解析,感谢【Python狗】等人参与学习交流。

大家在学习过程中如果有遇到问题,欢迎随时联系我解决(我的微信:pdcfighting),应粉丝要求,我创建了一些高质量的Python付费学习交流群和付费接单群,欢迎大家加入我的Python学习交流群和接单群!

小伙伴们,快快用实践一下吧!如果在学习过程中,有遇到任何问题,欢迎加我好友,我拉你进Python学习交流群共同探讨学习。

------------------- End -------------------

往期精彩文章推荐:

欢迎大家点赞,留言,转发,转载,感谢大家的相伴与支持

想加入Python学习群请在后台回复【入群

万水千山总是情,点个【在看】行不行

/今日留言主题/

随便说一两句吧~~

浏览 46
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报
评论
图片
表情
推荐
点赞
评论
收藏
分享

手机扫一扫分享

分享
举报