一次爬美团网美食团购的经历-技术圈

作者：刘早起早起

来源：早起python

在之前的文章Python告诉你想开一家美食店该怎么做该怎么做中，我们爬取了美团网美食栏目下相关商家数据进行了分析，那么本文就具体讲解怎样从美团网获取我们需要的数据，我在爬取数据过程中又经历了哪些坑

在一开始还是选择去一些技术网站看看有没有思路可以借鉴，根据搜索结果我将相关帖子分为两类，一类是已失效的代码，另一类是吐槽为什么美团的反爬机制这么变态。所以自己想办法解决。还是先打开目标页面看一下

通过切换区域可以发现页面的内容是通过Ajax异步请求技术得到的，简单来说就是能够实现在后台与服务器交换数据，在不重新加载页面的情况下更新网页。所以打开浏览器F12，进入开发者工具，选择Network，刷新页面，选择XHR(XmlHttpRequest)就可以选出Ajax的请求包

通过check preview的内容很轻松的就能从几个数据包中找到我们需要的那一个，再看下headers信息找到Requests URL

我们先打开一下这个URL试试?

OK返回的是一个json数据，心中暗喜，这不是搞定了吗，再定睛一看

这除了给了一个店铺名和地址还有评分就完了，就这点信息拿什么去分析，回想了一下刚刚查阅的一些其他大神曾经写的代码明明还有优惠券等信息，于是翻回之前的相关文档，通过对比发现只要在URL中添加userID就能返回更多的店铺信息

心中再次暗喜，虽然这只是一页的数据，我再写个循环多取几页不就能取一些数量的数据用于分析了吗，所以抓紧操作起来

url_list = []
for _ in range(1,31):
    url = 'https://hz.meituan.com/meishi/api/poi/getPoiList?cityName=%E6%9D%AD%E5%B7%9E&cateId=0&areaId=0&sort=&dinnerCountAttrId=&page=' + str(_) + '替换为你F12之后URL中page参数后对应的字符'
    url_list.append(url)

OK，这样一操作之后30页的URL就有了，再用requests去请求数据不就完事了，先测试一下

headers = {"User-Agent":"Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_2) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/80.0.3987.132 Safari/537.36",
 "Host": "hz.meituan.com",
"Referer": "https://hz.meituan.com/meishi/",
"Sec-Fetch-Dest": "empty",
"Sec-Fetch-Mode": "cors",
"Sec-Fetch-Site": "same-origin"}

data = requests.get(url,headers = headers).json()