脱单难!我用Python采集了几千条相亲文案,然后发现...
代码的编写过程
Python
当中的requests
库来发送和接受请求,通过正则表达式re
这个库来解析数据import requests
from tenacity import *
import re
import time
retry
装饰器来多次尝试@retry(stop=stop_after_attempt(5))
def do_requests(url):
response = requests.get(url, headers=headers, proxies=proxies, timeout=10)
return response.text
re
库来实现的,date_of_birth = re.compile("
①出生年月/星座(.*?)
", re.M | re.S)
sex = re.compile("
【基本资料】(.*?)
")
height = re.compile("
②身高/体重(.*?)
")
education = re.compile("
⑤学历(.*?)
")
jobs_1 = re.compile("
⑥职业(.*?)
")
income = re.compile("
⑦月均收入(.*?)
")
married = re.compile("
⑨有无婚史(.*?)
")
house_cars = re.compile("
⑧车房情况(.*?)
")
self_intro = re.compile("
⑪ 自我介绍(.*?)
")
requirements = re.compile("
【择偶标准】
(.*?)")
family_member = re.compile("
⑩家庭成员(.*?)
")
pyecharts
库来绘制一下分析的结果,对了,要是读者朋友不知道怎么使用pyecharts
这个库,可以阅读一下小编写的上几篇文章,都是非常干货的20个精美图表,教你玩转Pyecharts可视化 干货分享 | 用Pyecharts制作炫酷的可视化大屏 分享一个Pyecharts中非常重要的组件,可以大大提高绘制图表的效率 Pyecharts绘制22种超实用精美图表
结果的可视化展示
review_list = []
reviews = get_cut_words("".join(df_girls["requirements"].astype(str).tolist()))
reviews_counter = Counter(reviews).most_common(200)
print(reviews_counter)
for review in reviews_counter:
review_list.append((" " + review[0] + " ") * review[1])
stylecloud.gen_stylecloud(text=" ".join(review_list), max_words=500, collocations=False,
font_path="KAITI.ttf", icon_name="fab fa-apple", size=653,
output_name="4.png")
写在最后
推荐阅读:
入门: 最全的零基础学Python的问题 | 零基础学了8个月的Python | 实战项目 |学Python就是这条捷径
干货:爬取豆瓣短评,电影《后来的我们》 | 38年NBA最佳球员分析 | 从万众期待到口碑扑街!唐探3令人失望 | 笑看新倚天屠龙记 | 灯谜答题王 |用Python做个海量小姐姐素描图 |碟中谍这么火,我用机器学习做个迷你推荐系统电影
趣味:弹球游戏 | 九宫格 | 漂亮的花 | 两百行Python《天天酷跑》游戏!
AI: 会做诗的机器人 | 给图片上色 | 预测收入 | 碟中谍这么火,我用机器学习做个迷你推荐系统电影
小工具: Pdf转Word,轻松搞定表格和水印! | 一键把html网页保存为pdf!| 再见PDF提取收费! | 用90行代码打造最强PDF转换器,word、PPT、excel、markdown、html一键转换 | 制作一款钉钉低价机票提示器! |60行代码做了一个语音壁纸切换器天天看小姐姐!|
年度爆款文案
点阅读原文,看200个Python案例!
评论