jieba,宇宙最强Python分词工具使用指南
数据森麟
共 1253字,需浏览 3分钟
· 2019-12-24
作者:刘志军
来源:Python之禅
结巴分词是Python语言中最流行的一个分词工具,在自然语言处理等场景被广泛使用。
因为GitHub写的文档太啰嗦,所以整理了一个简版的入门使用指南,看完可直接上手
安装
pip install jieba
简单分词
import jieba
result = jieba.cut("我爱中国北京大学")
for word in result:
print(word)
输出
我
爱
中国
北京大学
句子切分成了5个词组。
全模式分词
result = jieba.cut("我爱中国北京大学", cut_all=True)
for word in result:
print(word)
输出
我
爱
中国
北京
北京大学
大学
全模式分出来的词覆盖面更广。
提取关键词
从一个句子或者一个段落中提取前k个关键词
import jieba.analyse
result = jieba.analyse.extract_tags("机器学习,需要一定的数学基础,需要掌握的数学基础知识特别多,"
"如果从头到尾开始学,估计大部分人来不及,我建议先学习最基础的数学知识",
topK=5,
withWeight=False)
import pprint
pprint.pprint(result)
输出
['数学', '学习', '数学知识', '基础知识', '从头到尾']
topK 为返回前topk个权重最大的关键词
withWeight 返回每个关键字的权重值
去掉停止词
停止词是指在句子中无关紧要的词语,例如标点符号、指示代词等等,做分词前要先将这些词去掉。分词方法cut
不支持直接过滤停止词,需要手动处理。提取关键字的方法 extract_tags
支持停止词过滤
# 先过滤停止词
jieba.analyse.set_stop_words(file_name)
result = jieba.analyse.extract_tags(content, tokK)
file_name 的文件格式是文本文件,每行一个词语
官方地址:https://github.com/fxsjy/jieba
◆ ◆ ◆ ◆ ◆
长按二维码关注我们
数据森麟公众号的交流群已经建立,许多小伙伴已经加入其中,感谢大家的支持。大家可以在群里交流关于数据分析&数据挖掘的相关内容,还没有加入的小伙伴可以扫描下方管理员二维码,进群前一定要关注公众号奥,关注后让管理员帮忙拉进群,期待大家的加入。
管理员二维码:
评论
金融研究 | 使用Python测量关键审计事项的「信息含量」
Tips: 公众号推送后内容只能更改一次,且只能改20字符。如果内容出问题,或者想更新内容, 只能重复推送。为了更好的阅读体验,建议阅读本文博客版, 链接地址https://textdata.cn/blog/2023-01-13-information-content-of-critical-aud
大邓和他的Python
0
金融研究(更新) | 使用Python构建关键审计事项的「信息含量」
Tips: 公众号推送后内容只能更改一次,且只能改20字符。如果内容出问题,或者想更新内容, 只能重复推送。为了更好的阅读体验,建议阅读本文博客版, 链接地址https://textdata.cn/blog/2023-01-13-information-content-of-critical-aud
大邓和他的Python
0
谷歌员工爆料 Python 基础团队原地解散
转自 | 机器之心编辑 | 蛋酱什么?谷歌解雇了整个 Python 基础团队?「当与你直接共事的每个人,包括你的主管,都被裁员 —— 哦,是职位被削减,而你被要求安排他们的替代者入职,这些人被告知在不同的国家担任同样的职位,但他们并不为此感到高兴,这是很艰难的一天。」发布这一动态的 Tho
机器学习算法与Python实战
0
五一抢票难,Github上这几个Python项目,你可以试试
又到五一长假啦(虽然其实就放了1天),大家是打算家里蹲or出去玩,又或者是在公司加班呢...今天给大家介绍三个和12306相关的项目,看看你是否用得上。/01/ py12306py12306购票助手,顾名思义,12306买票的~需要在python 3.6以上版本运行程序。1. 安装依赖gi
Crossin的编程教室
0
谷歌员工爆料Python基础团队原地解散
机器之心报道编辑:蛋酱什么?谷歌解雇了整个 Python 基础团队?「当与你直接共事的每个人,包括你的主管,都被裁员 —— 哦,是职位被削减,而你被要求安排他们的替代者入职,这些人被告知在不同的国家担任同样的职位,但他们并不为此感到高兴,这是很艰难的一天。」发布这一动态的 Thomas Wouter
机器学习初学者
0
Python加速运行技巧
Python 是一种脚本语言,相比 C/C++ 这样的编译语言,在效率和性能方面存在一些不足。但是,有很多时候,Python 的效率并没有想象中的那么夸张。本文对一些 Python 代码加速运行的技巧进行整理。 0. 代码优化原则 本文会介绍不少的 Python 代码加速运行的技巧。在深入代码优化细
机器学习算法与Python实战
0
中国人民大学《大语言模型》书籍中文版开放下载!还配套代码工具库~
大语言模型综述文章《A Survey of Large Language Models》团队终于出书啦!而且是中文版——《大语言模型》!这本书整理呈现了大模型技术框架和路线图,是一本非常好的入门书籍。🧿🧿🧿
此外,官方不仅发布了电子版 PDF 下载链接,还提供了配套资源。点赞 👍图书下载 → [大
机器学习算法与Python实战
0
为什么我们公司还在用 Python 开发项目?
作者:哇哒嘻哇https://www.zhihu.com/question/278798145/answer/3416549119最近几年里,经常看到某些曾重度使用 Python 的大公司迁移成其它语言技术栈,但是,那些小公司/小团队的情况如何呢?一直很想了解那些仍在坚持使用 Python,且支撑业
机器学习算法与Python实战
0