世纪佳缘水分有多大?
裸睡的猪
共 2655字,需浏览 6分钟
· 2020-11-07
文 | 某某白米饭
来源 | Python 技术
今天在知乎上看到一个关于【世纪佳缘找对象靠谱吗?】的讨论,其中关注的人有 1903,被浏览了 1940753 次,355 个回答中大多数都是不靠谱。用 Python 爬取世纪佳缘的数据是否能证明它的不靠谱?
一、数据抓取
在 PC 端打开世纪佳缘网站,搜索 20 到 30 岁、不限地区的女朋友
翻了几页找到一个 search_v2.php 的链接,它的返回值是一个不规则的 json 串,其中包含了昵称、性别、是否婚配、匹配条件等等
点开 Hearders 拉到最下面,在它的参数中 sex 是性别、stc 是年龄、p 是分页、listStyle 是有照片
通过 url + 参数的 get 方式,抓取了 10000 页的数据总共 240116
需要安装的模块有 openpyxl,用于过滤特殊的字符
# coding:utf-8
import csv
import json
import requests
from openpyxl.cell.cell import ILLEGAL_CHARACTERS_RE
import re
line_index = 0
def fetchURL(url):
headers = {
'accept': '*/*',
'user-agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.75 Safari/537.36',
'Cookie': 'guider_quick_search=on; accessID=20201021004216238222; PHPSESSID=11117cc60f4dcafd131b69d542987a46; is_searchv2=1; SESSION_HASH=8f93eeb87a87af01198f418aa59bccad9dbe5c13; user_access=1; Qs_lvt_336351=1603457224; Qs_pv_336351=4391272815204901400%2C3043552944961503700'
}
r = requests.get(url, headers=headers)
r.raise_for_status()
return r.text.encode("gbk", 'ignore').decode("gbk", "ignore")
def parseHtml(html):
html = html.replace('\\', '')
html = ILLEGAL_CHARACTERS_RE.sub(r'', html)
s = json.loads(html,strict=False)
global line_index
userInfo = []
for key in s['userInfo']:
line_index = line_index + 1
a = (key['uid'],key['nickname'],key['age'],key['work_location'],key['height'],key['education'],key['matchCondition'],key['marriage'],key['shortnote'].replace('\n',' '))
userInfo.append(a)
with open('sjjy.csv', 'a', newline='') as f:
writer = csv.writer(f)
writer.writerows(userInfo)
if __name__ == '__main__':
for i in range(1, 10000):
url = 'http://search.jiayuan.com/v2/search_v2.php?key=&sex=f&stc=23:1,2:20.30&sn=default&sv=1&p=' + str(i) + '&f=select&listStyle=bigPhoto'
html = fetchURL(url)
print(str(i) + '页' + str(len(html)) + '*********' * 20)
parseHtml(html)
二、去重
在处理数据去掉重复的时候发现有好多重复的,还以为是代码写的有问题呢,查了好久的 bug 最后才发现网站在 100 页只有的数据有好多重复的,下面两个图分别是 110 页数据和 111 页数据,是不是有很多熟面孔。
110 页数据
111 页数据
过滤重复后的数据只剩下 1872 了,这个水分还真大
def filterData():
filter = []
csv_reader = csv.reader(open("sjjy.csv", encoding='gbk'))
i = 0
for row in csv_reader:
i = i + 1
print('正在处理:' + str(i) + '行')
if row[0] not in filter:
filter.append(row[0])
print(len(filter))
源码:https://github.com/JustDoPython/python-examples/tree/master/moumoubaimifan/sjjy
总结
数量水分都如此之大,其他的还能相信嘛?
交友需谨慎,用好 Python 走遍网络都不怕。
评论
面试官:在原生input上面使用v-model和组件上面使用有什么区别?
前言面试官:vue3的v-model都用过吧,来讲讲。粉丝:v-model其实就是一个语法糖,在编译时v-model会被编译成:modelValue属性和@update:modelValue事件。一般在子组件中定义一个名为modelValue的props来接收父组件v-model传递的值,然后当子组
高级前端进阶
0
上班的时候,有一群摸鱼搭子非常重要...
上班的时候,有一群摸鱼搭子非常重要!一到上班时间,他们就从四面八方涌进群里冒泡...从八卦聊到股市、从职场聊到乌X兰局势,偶尔还会复读、相亲、battle...然后,下午6点钟准时消失不见...所以你要不要加入我们一起摸鱼?我们有北京、上海、深圳、广州、杭州、武汉、成都、南京等8个城市的摸鱼群,还有
产品经理日记
0
知乎高问:程序员有必要知道为什么做某个功能吗?
将Python客栈设为“星标⭐”第一时间收到最新资讯前言知乎上有一个提问:程序员有必要知道为什么做某个功能吗?↓↓↓今天,我们就这个话题一起来做个讨论。不知道程序员的你,在接到产品经理提的一个需求后,是习惯马上动手开始撸代码呢?还是会先暂停一下,认真思考一会如下一些问题,比如这个需求产生的背景是什么
Python客栈
0
日本影山优佳最新杂志照,展现充满透明感的美丽
今天的图文分享的是影山优佳的杂志写真。元日向坂46的影山优佳,登上了写真杂志《周刊FLASH》5/7和5/14合并号的封面。影山优佳是日本艺人、女演员、前偶像。身高155厘米。2001年5月8日出生于东京都。2023年7月从组合日向坂46毕业,之后作为演员活跃的影山优佳,在《周刊FLAS
python教程
0
她是80年代日本传奇爱豆,却被世纪渣男毁了一生
歌手の中森明菜(58)が、59歳の誕生日を迎える7月13日に合わせ、ファンクラブ会員を対象にしたイベントを開催する。すでに会員には案内を送っている。歌手中森明菜(58岁)将在迎来59岁生日的7月13日,以歌迷俱乐部会员为对象举办活动。已经给会员发了向导。一部報道で「復活ライブ」などと報じられたが、所
python教程
0
盱眙城区一辆解放牌五小车辆对外转让,有需要的老板跟车主联系。
解放牌五小车辆原厂自卸车,年审及保险最新。无任何事故及违章,正常干活车辆,无毛病,手续齐全,车况良好,价格不高,需要的欢迎看车购买。买好车加满油让你开回家。车辆地址:盱眙天鹅湖附近。车主电话:13770461668潘先生
盱眙老妹
0
面试官:限流的常见算法有哪些?
限流的实现算法有很多,但常见的限流算法有三种:计数器算法、漏桶算法和令牌桶算法。1.计数器算法计数器算法是在一定的时间间隔里,记录请求次数,当请求次数超过该时间限制时,就把计数器清零,然后重新计算。当请求次数超过间隔内的最大次数时,拒绝访问。计数器算法的实现比较简单,但存在“突刺现象”。突刺现象是指
Stephen
0
上班的时候,有一群摸鱼搭子非常重要...
上班的时候,有一群摸鱼搭子非常重要!一到上班时间,他们就从四面八方涌进群里冒泡...从八卦聊到股市、从职场聊到乌X兰局势,偶尔还会复读、相亲、battle...然后,下午6点钟准时消失不见...所以你要不要加入我们一起摸鱼?我们有北京、上海、深圳、广州、杭州、武汉、成都、南京等8个城市的摸鱼群,还有
产品经理日记
0